[发明专利]一种多领域文本分类方法在审

专利信息
申请号: 201910948919.6 申请日: 2019-10-08
公开(公告)号: CN110795410A 公开(公告)日: 2020-02-14
发明(设计)人: 吴海明;赵洪雅;蔡倩华;薛云;周波 申请(专利权)人: 华南师范大学;深圳职业技术学院
主分类号: G06F16/174 分类号: G06F16/174;G06F16/35;G06F40/289;G06F40/205;G06N3/04;G06N3/08
代理公司: 44425 广州骏思知识产权代理有限公司 代理人: 吴静芝
地址: 510006 广东省广州市番禺区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种多领域文本分类方法,通过结合共享和私有特征的特性,设计了一种共享‑私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
搜索关键词: 领域文本 共享 交互式学习 上下文信息 并行运算 共享参数 共享信息 私有信息 提取特征 完全分离 文本表示 文本分类 词语 文本 分类 网络
【主权项】:
1.一种多领域文本分类方法,其特征在于,包括以下步骤:/n对多领域文本数据集进行预处理:通过分词并获取每个词语的分布式向量表示,得到所述多领域文本数据集中每个文本的标准化表示,将所述多领域文本数据集下每个领域的数据划分各自领域的训练集、开发集、测试集;/n通过初始化词语级门网络和句子级共享-私有门网络构建特征提取器,其中,所述词语级门网络用于学习每个词语的隐变量;所述句子级共享-私有门网络用于提取所有领域句子的共享表示和私有表示,所述句子级共享-私有门网络包括分别对应每个领域数据的私有门以及一组共享门;由所述特征提取器根据所述每个文本的标准化表示获得每个文本的共享表示和私有表示;/n由对抗神经网络根据所述每个文本的共享表示和私有表示获得所述特征提取器的优化参数,根据所述优化参数调整所述特征提取器;/n根据所述共享表示和私有表示构建损失函数作为多领域文本分类模型,根据所述训练集训练所述多领域文本分类模型,根据所述开发集对所述多领域文本分类模型的模型参数进行选择获得所述多领域文本分类模型的最优模型;/n运用所述多领域文本分类模型的最优模型对所述测试集进行分类预测。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;深圳职业技术学院,未经华南师范大学;深圳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910948919.6/,转载请声明来源钻瓜专利网。

同类专利
  • 一种多领域文本分类方法-201910948919.6
  • 吴海明;赵洪雅;蔡倩华;薛云;周波 - 华南师范大学;深圳职业技术学院
  • 2019-10-08 - 2020-02-14 - G06F16/174
  • 本发明涉及一种多领域文本分类方法,通过结合共享和私有特征的特性,设计了一种共享‑私有LSTM网络,用于提取文本的共享和私有表示;该方法具有并行运算特点,具有很快的运行速度,且其提取特征时,可以充分考虑词语上下文信息,可以有效提高文本表示的准确性,从而有利于文本分类性能;另外,在针对多领域文本特点上,本案让共享参数和私有参数进行充分地交互式学习,可以有利于提高共享信息和私有信息的完全分离。
  • 一种数据压缩方法与解压方法以及相关设备-201780091030.X
  • 李宇翔 - 深圳配天智能技术研究院有限公司
  • 2017-05-26 - 2020-02-14 - G06F16/174
  • 本发明实施例公开了一种数据压缩方法与解压方法以及相关设备,用于压缩连续重复的数据。本方法可包括:获取待压缩的原始数据文件(101);查找所述原始数据文件中存在的对预定数据进行连续重复的重复数据段,并确定连续重复的次数d(102);将所述预定数据及所述连续重复的次数d写入所述原始数据文件中以代替所述重复数据段(103),从而压缩所述重复数据段。
  • 数据传输方法、装置和电子设备-201910962703.5
  • 不公告发明人 - 北京无限光场科技有限公司
  • 2019-10-10 - 2020-02-11 - G06F16/174
  • 本公开实施例公开了一种数据传输方法、装置和电子设备,该数据传输方法包括:获取当前时刻的网络状态参数,所述网络状态参数包括网络传输速率;根据所述网络状态参数与预先建立的网络状态‑压缩率映射关系,确定当前时刻对应的压缩率,其中,所述网络状态‑压缩率映射关系用于根据网络状态参数确定数据压缩率;根据所述压缩率对传输对象当前时刻的待传输数据进行压缩,并传输压缩后的所述待传输数据。本公开能够在网络状态较好时,保证在成功发送传输对象的基础上使传输对象具有较高的保真度;并在网络状态较差时,保证传输对象能够在较快的速度下发送成功,有效改善了用户体验。
  • 一种工程建设项目申报材料共享去重方法-201911053278.4
  • 宋勇;陈兆亮;宁方刚 - 浪潮云信息技术有限公司
  • 2019-10-31 - 2020-02-11 - G06F16/174
  • 本发明特别涉及一种工程建设项目申报材料共享去重方法。该工程建设项目申报材料共享去重方法,将工程建设项目中的申报材料共享配置封装到模块,通过对事项系统提供的申报材料清单进行解析,并以树状结构的形式展现,材料提交后系统自动根据开发管理人员配置的材料映射关系,将材料共享到相应的事项下,同一共享下的材料都不需要重复提交,即可实现多个事项联合申报的过程中材料去重,相同附件提交一次,其他事项能够实时共享到提交的材料。该工程建设项目申报材料共享去重方法,在申报过程中,一个共享组的材料只需要提交一次,从而最大限度地减少了办事人申报材料提交的次数,简化了窗口人员操作的流程,提高了工程建设系统的办事效率。
  • 一种数据存储方法与装置-201910921530.2
  • 于开文 - 苏州浪潮智能科技有限公司
  • 2019-09-27 - 2020-02-04 - G06F16/174
  • 本发明公开了一种数据存储方法与装置,包括:将待存储数据与所有已存储数据一一比对基本信息;响应于待存储数据的基本信息不与任何已存储数据一致,而直接存储待存储数据;响应于待存储数据的基本信息与特定已存储数据一致,而计算待存储数据的局部敏感哈希,将待存储数据的局部敏感哈希与特定已存储数据的局部敏感哈希进行分组对比,并根据对比结果来选择性地存储待存储数据。本发明能够降低数据存储在数据比对上消耗的时间,提高处理效率。
  • 一种企业名称查重方法及装置、设备、介质-201911018999.1
  • 王章龙;张韬 - 赛诺贝斯(北京)营销技术股份有限公司
  • 2019-10-24 - 2020-02-04 - G06F16/174
  • 本发明实施例提供的一种企业名称查重方法及装置、设备、介质,该方法包括:获取企业信息,所述企业信息包括:企业名称;将所述企业名称拆分以地区、字号、经营范围、组织形式、机构类型为类别的分词词组;对所述分词词组,以地区、字号、经营范围、组织形式、机构类型中的一个或一个以上的组合作为查重依据,确定重复的企业信息,本发明实施例可以实现自动的分词词组的拆分,并且按照企业信息的格式对各个词组进行组合已确定重复的企业信息,能够降低对操作人员的技能要求,方便、快捷地对企业名称进行查重。
  • 一种基于Lucene的Payloads压缩方法-201911026277.0
  • 王帅 - 南京录信软件技术有限公司
  • 2019-10-25 - 2020-01-17 - G06F16/174
  • 本发明公开了一种基于Lucene的Payloads压缩方法,包括如下步骤,S1、块内存的设定;S2、数据的加载;S3、块的划分;S4、块的压缩;本发明对Payloads文件进行压缩的同时未影响到Lucene原先的API,不影响其功能,封装性较好,也便于之后对Lucene进行各项功能的拓展;采用某个可变长大小作为一个块单位,对超大Payloads文件进行分块压缩,压缩效果极其明显;减少了Payloads文件的存储大小,节省了存储空间,降低了硬件成本;有效解决了存储的索引数据文件较多时,会极大地占用硬件存储空间的问题。
  • 一种网络日志压缩方法和装置-201510728041.7
  • 才宇东 - 华为数字技术(苏州)有限公司
  • 2015-10-31 - 2020-01-10 - G06F16/174
  • 本发明公开了一种网络日志压缩方法和装置,用于改善现有网络日志压缩方法压缩率低的问题。方法包括:对采集到的网络日志进行解析,确定出网络日志包含的至少一个特征;若已有的第一数据集的业务类型并集中不包含该网络日志的第一特征,确定网络日志的特征集合与第一数据集的特征集合的相似度;如果确定出该网络日志的特征集合与第一数据集的特征集合的相似度大于设定阈值,将该网络日志归并至国第一数据集;如果确定出该网络日志的特征集合与第一数据集的特征集合的相似度不大于设定阈值,创建第二数据集,并将该网络日志归并至第二数据集中;对每个数据集进行压缩和存储处理,从而有效减少了压缩包的数量,进而减少了存储空间。
  • 一种记录日志数据的方法和装置-201611209026.2
  • 闫国跃;叶润桂 - 腾讯科技(深圳)有限公司
  • 2016-12-23 - 2020-01-10 - G06F16/174
  • 本发明公开了一种记录日志数据的方法和装置,属于计算机技术领域。所述方法包括:获取应用程序生成的日志数据;以单条日志数据为基本压缩元素,对生成的日志数据逐条进行流式压缩,对每条压缩后的日志数据进行缓存;每当缓存的日志数据满足预设导出条件时,将缓存的日志数据写入日志文件中,并清除缓存的日志数据。采用本发明,可以减少应用程序的卡顿。
  • 数据处理方法-201610398639.9
  • 王杰林 - 湖南千年华光软件开发有限公司
  • 2016-06-07 - 2020-01-03 - G06F16/174
  • 本发明实施例提出了数据处理方法,所述方法包括:对初始编码空间进行空间扩展得到扩展后的空间,根据所述字符的静态统计模型,对扩展后的初始编码空间进行划分,以获得当前待编码字符对应的编码空间;对所述当前编码字符对应的编码空间进行扩展,得到扩展后的编码空间;根据所述字符的统计模型,对所述扩展后的编码空间进行划分,以获得下一待编码字符对应的编码空间;将下一待编码字符作为当前待编码字符,直到所述待编码数据中字符全部编码完毕,获得编码结果;将所述编码结果、待编码数据长度以及第一统计参数作为编码输出,所述第一统计参数为所述待编码数据中包含1的个数。所述方法进一步提高了数据的压缩率,使得压缩效果更好。
  • 一种数据存储方法、装置、设备及存储介质-201910843695.2
  • 徐晓阳;赵万里 - 苏州浪潮智能科技有限公司
  • 2019-09-06 - 2019-12-27 - G06F16/174
  • 本申请公开了一种数据存储方法,包括当获取到源数据时,将所述源数据划分为预设数量个数据块;对当前数据块进行哈希运算,获得所述当前数据块对应的哈希值;获取所述源数据对应的快照数据,并从所述快照数据中获取所述当前数据块对应的快照数据块,计算获得所述快照数据块的哈希值;将所述当前数据块的哈希值与所述快照数据块的哈希值进行匹配,当匹配不通过时,将所述当前数据块存储至预设存储空间;该数据存储方法有效地提高了存储空间的利用率,同时也极大地降低了存储资源的负载。本申请还公开了一种数据存储装置、设备及计算机可读存储介质,均具有上述有益效果。
  • 一种流式计算系统的消息处理方法和装置-201510413095.4
  • 陈昱;刘键;封仲淹 - 阿里巴巴集团控股有限公司
  • 2015-07-15 - 2019-12-24 - G06F16/174
  • 本发明提供了一种流式计算系统的消息处理方法和装置,其中方法包括:S1、接收消息;S2、判断第一存储单元中是否已经存储有所述消息,如果是,不对该消息进行处理;否则,执行S3;S3、判断第二存储单元中是否已经存在所述消息对应的业务处理结果,如果是,执行S6,否则执行S4;S4、对所述消息进行业务处理;S5、将所述消息及其业务处理结果写入第二存储单元;S6、将所述消息写入第一存储单元。本发明能够保证流式计算系统中消息仅被业务处理一次,提高了系统性能和效率。
  • 一种FPGA二进制文件压缩、解压方法及压缩、解压装置-201610489184.1
  • 郭汇江 - 深圳市恒扬数据股份有限公司
  • 2016-06-28 - 2019-12-17 - G06F16/174
  • 本发明适用于FPGA技术领域,提供了一种FPGA二进制文件压缩、解压方法及压缩、解压装置,压缩方法包括:获取FPGA二进制文件;遍历FPGA二进制文件的内容,对内容进行分类,判定分类数据以及分类数据所在的数据区;采用所述数据区对应的编码存储方式,编码存储分类数据;根据通用压缩算法,对信息熵小于设定值的分类数据,进行整体压缩。本发明的有益效果如下:1)分析FPGA二进制文件的结构特点,把FPGA二进制文件分为几种特定类型的数据区。对于不同的数据区采用不同的编码方式压缩存储,极大的降低了文件存储空间;2)使用长度,类型,数据值的方式保存,对于一次压缩,多次解压的应用场景特别有效。解压速度远远大于压缩速度,提高了解压效果。
  • 一种文件压缩的方法和装置-201810272865.1
  • 罗永浩;陈欣;陈子扬 - 成都野望数码科技有限公司
  • 2018-03-29 - 2019-12-10 - G06F16/174
  • 本发明公开了一种文件压缩的方法和装置,该方法包括:获取包括多媒体信息的目标文件;解析所述目标文件,提取所述目标文件中的至少一种多媒体信息作为目标信息;利用与所述目标信息的类型相对应目标压缩方式压缩所述目标信息,获得压缩信息;根据所述压缩信息和所述目标文件中除所述目标信息之外的文件信息,生成压缩文件。可见,通过提取文件中占用存储空间较大的多媒体信息作为目标信息,采用对应该目标信息类型的压缩方式对目标信息进行压缩得到压缩信息,此方法压缩了目标信息所占用的存储空间;基于压缩信息生成的压缩文件占用存储空间减小,从而提高文件应用效率,降低硬件资源的占用。
  • 一种移动网络上网日志数据的压缩算法-201910867548.9
  • 苏鹏威 - 北京上下文系统软件有限公司
  • 2019-09-13 - 2019-12-06 - G06F16/174
  • 本发明提供了一种移动网络上网日志数据的压缩算法,包括以下步骤:步骤一:获取上网日志数据,并根据源数据格式进行数据解析;步骤二:压缩开始时间和结束时间;步骤三:压缩手机号码;步骤四:压缩源IP;步骤五:压缩目标IP;步骤六:将压缩后的所有字段连同标记位存盘;本发明针对上网日志数据的特点,将上网日志数据的压缩比从原数据的30%优化到17%左右,将节省一半左右的存储资源,压缩比更高。
  • 一种文件压缩、解压缩方法及装置-201910721364.1
  • 丁增强 - 苏州浪潮智能科技有限公司
  • 2019-08-06 - 2019-12-03 - G06F16/174
  • 本申请实施例提供一种文件压缩、解压缩方法及装置,所述文件压缩方法包括:获得用于组成待压缩的原始文件的多个数据块;对所述多个数据块进行压缩处理,获得与所述多个数据块一一对应的多个压缩数据块以及多个字典;将每个字典存储至与所述每个字典对应的压缩数据块上,并将每个字典备份保存至所述多个压缩数据块中除了与所述每个字典对应的压缩数据块之外的其它压缩数据块上,得到压缩文件。如此,通过分块压缩以及备份字典的方式来获得压缩文件,在对发生损坏的压缩文件进行解压缩时,能够大大提高受损压缩文件的修复率,降低压缩文件损坏后不能恢复的风险。
  • 压缩文件的增量更新方法、系统和介质-201910772131.4
  • 管广鹏 - 广联达科技股份有限公司
  • 2019-08-21 - 2019-12-03 - G06F16/174
  • 本发明公开了一种压缩文件的增量更新方法,包括在客户端进行原版文件的差异判断,形成差异文件;对差异文件进行压缩处理得到客户端压缩文件增量包;将压缩文件增量包上传云端服务器;在云端服务器将压缩文件增量包与存储的原版文件进行合并。本发明所生成的增量包更小,所需的上传更新时间少。占用网络带宽小,减少服务器性能需求,减少对服务器端服务其他功能的影响。大大缩短用户上传的时间,提高用户体验。节约上传更新所需的流量,降低成本。
  • 一种基于RLE和LZW的优化比特文件压缩与解压缩方法-201610752157.9
  • 杨玉辰;周国昌;赖晓玲;袁雅婧;高翔 - 西安空间无线电技术研究所
  • 2016-08-26 - 2019-11-29 - G06F16/174
  • 一种基于RLE和LZW的优化比特文件压缩与解压缩方法,通过对FPGA配置比特文件进行数据格式分析,抠出比特文件的头部控制字,从真实配置数据开始,采用游长为4的RLE编码进行初步压缩,再进行LZW压缩进一步提升压缩率。解压缩时为压缩的逆过程,先进行LZW解压缩还原出中间数据,再对不包含头部控制字的数据部分进行RLE解压缩,还原出原始的FPGA配置比特文件。该方法综合考虑了压缩/解压缩的时间和压缩率,与Xilinx自带的压缩工具比较,与单纯应用RLE算法,单纯应用LZW算法比较,实现了压缩率与压缩速度的双赢。解决了Xilinx先进型号FPGA配置比特文件过大的问题,节省了存储芯片的开销,为FPGA在轨重构技术提供了关键技术支撑。
  • 压缩解压方法、装置、电子设备及存储介质-201910744221.2
  • 罗秋明;杜海鑫 - 深圳大学
  • 2019-08-13 - 2019-11-22 - G06F16/174
  • 本公开涉及一种压缩解压方法、装置、电子设备及存储介质,其中,一种压缩解压方法包括获得待压缩文件或待解压文件;通过硬件实现待压缩文件的压缩或待解压文件的解压。压缩解压装置包括文件获得模块、压缩模块和/或解压模块,其中,文件获得模块被配置为用于获得待压缩文件或待解压文件,压缩模块被配置为用于通过硬件实现待压缩文件的压缩,解压模块被配置为通过硬件实现待解压文件的解压。本公开通过采用硬件来处理压缩解压的数据,可以有效释放CPU性能,从而加速数据压缩解压进程。
  • 一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质-201910750978.2
  • 汪明浩;李鹏 - 北京思图场景数据科技服务有限公司
  • 2019-08-14 - 2019-11-15 - G06F16/174
  • 本发明涉及计算机图像识别技术领域,公开了一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质。通过本发明创造,不但可以极大地消除因数据样本不均衡所带来的不利影响,还可对小数据量的样本做多方面的数据增强,使得最终通过迁移学习所得的数据文件处理模型能够对相似度极高的文件有一个良好的识别能力,即在每个类别多于20张的情况下都能训练出来一个相对可靠的处理模型出来,保障了数据文件处理的效果。此外,还可有效解决非专业人员无法在数据文件处理过程中做数据预处理、基础模型选型和迁移学习连接等问题,自动化或半自动化程度极高,便于实际应用和推广。
  • 磁盘历史文件的清理方法及装置-201910752249.0
  • 罗建林;陈国杰 - 中国银行股份有限公司
  • 2019-08-15 - 2019-11-15 - G06F16/174
  • 本发明公开了一种磁盘历史文件的清理方法及装置,该方法包括:在应用系统生成历史文件时,将历史文件的参数信息同步记录至数据库表中;数据库表中历史文件的参数信息用于定位对应的历史文件;根据预设清理规则搜索数据库表,确定待清理的历史文件,对待清理的历史文件进行清理。本发明在应用系统生成历史文件时,将历史文件的参数信息同步记录至数据库表中,从而通过搜索数据库表定位及清理磁盘上的历史文件,可以极大的提高磁盘上历史文件的定位及清理效率。
  • 压缩文件的修改方法与装置-201710022499.X
  • 李建欣;何川;彭浩;张扬扬 - 北京航空航天大学
  • 2017-01-12 - 2019-11-15 - G06F16/174
  • 本发明提供一种压缩文件的修改方法与装置。该方法包括:接收用户输入的修改指令,修改指令包括待修改字符和修改字符,修改指令用于将压缩文件中的待修改字符更新为修改字符;解析压缩文件,获得压缩文件的码表和压缩文件的二进制码流;其中,码表包括压缩文件中的不同字符对应的二进制码,二进制码流包括按照压缩文件中字符顺序排列的二进制码;根据码表,获得待修改字符的第一二进制码和修改字符的第二二进制码;将二进制码流中的第一二进制码替换为第二二进制码。本发明的技术方案直接是对压缩文件的二进制码流进行修改,不需要对压缩文件进行解压和压缩,整个过程简单省时,实现了对压缩文件的快速、简便修改。
  • jpg文件的压缩方法及解压缩方法-201610022918.5
  • 顾晓;赵海武 - 上海大学
  • 2016-01-14 - 2019-11-15 - G06F16/174
  • 本发明提供一种jpg文件的压缩方法及解压缩方法,jpg文件的压缩方法包括以下步骤:步骤一:读取一组jpg文件;步骤二:简称它们的除压缩数据和以0xFFE0~0xFFEF开始的段以外的段为‘公共段’,比较它们的公共段是否完全相同;如果完全相同,则接着执行步骤三;如果不完全相同,则结束;步骤三:重新构建一个jpg文件,以步骤二中所述的公共段为该jpg文件的段;步骤四:择原jpg文件之一作为主视图,其他jpg文件作为辅助视图;将主视图的压缩数据作为新建jpg文件的压缩数据;如果主视图中存在以0xFFE0为标记的段,则将该段加入新建的jpg文件。本发明节约存储空间,更便于图像的管理和查看。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top