[发明专利]词向量训练方法和装置有效

专利信息
申请号: 201710023520.8 申请日: 2017-01-12
公开(公告)号: CN106802888B 公开(公告)日: 2020-01-24
发明(设计)人: 李建欣;刘垚鹏;彭浩;陈汉腾;张日崇 申请(专利权)人: 北京航空航天大学
主分类号: G06F40/284 分类号: G06F40/284;G06F16/31
代理公司: 11205 北京同立钧成知识产权代理有限公司 代理人: 张莲莲;刘芳
地址: 100191 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明提供的词向量训练方法和装置,减少了训练词向量时的计算量。
搜索关键词: 向量 训练 方法 装置
【主权项】:
1.一种词向量训练方法,其特征在于,包括:/n获取新增词汇库,所述新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,所述旧词汇库中的词汇对应有旧词向量;/n对所述新词汇库中的词汇进行初始化处理,使得所述新词汇库中属于所述旧词汇库中的词汇的词向量为旧词向量,所述新词汇库中属于所述新增词汇库中的词汇词向量为随机词向量;/n根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新;/n所述根据所述旧词汇库对应的噪声分布和所述新词汇库对应的噪声分布分别对所述新词汇库中词汇的词向量进行更新,包括:/n获取第一词汇对应的预设目标函数,所述第一词汇为所述新词汇库中的词汇;/n根据所述第一词汇在所述旧词汇库的属性和在所述新词汇库的属性对所述预设目标函数进行梯度处理,得到所述第一词汇对应的词向量;/n所述获取第一词汇对应的预设目标函数,包括:/n若所述第一词汇属于所述旧词汇库,则根据Skip-gram模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;/n若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述Skip-gram模型的原始目标函数;/n或者,所述获取所述第一词汇对应的预设目标函数,包括:/n若所述第一词汇属于所述旧词汇库,则根据CBOW模型的原始目标函数对所述第一词汇进行因式分解,得到所述第一词汇对应的预设目标函数;/n若所述第一词汇属于所述新增词汇库,则所述第一词汇对应的预设目标函数为所述CBOW模型的原始目标函数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710023520.8/,转载请声明来源钻瓜专利网。

同类专利
  • 文本隐含语义激活方法及系统-201710565733.3
  • 曾大军;白洁;李林静;王磊;李秋丹 - 中国科学院自动化研究所
  • 2017-07-12 - 2020-02-14 - G06F40/284
  • 本发明涉及文本隐含语义激活方法及系统,所述激活方法包括:获取待测文本的待测词项信息;根据文本集合知识库及所述待测文本的待测词项信息,确定所述文本集合知识库的词表中每个参考词项的激活系数;所述文本集合知识库包括多个参考词项共同构成的词表、对应各参考词项的参考词向量及参考词频;根据各激活系数,选取对应的参考词项构成待测文本的隐含语义集合;将所述隐含语义集合添加到所述待测文本中进行语义扩充。从而能够准确确定待测文本的隐含信息,准确度高。
  • 局部优化关键词的提取方法、装置、服务器及存储介质-201910884825.7
  • 陈婷婷 - 平安科技(深圳)有限公司
  • 2019-09-19 - 2020-02-07 - G06F40/284
  • 本发明涉及大数据技术领域,公开了一种局部优化关键词的提取方法,包括:接收待处理文本,识别待处理文本的标题、首段和尾段中的字符;基于预置中文分词系统,获取标题、首段和尾端中的目标分词,更新目标分词的词性为关键词词性;通过中文分词系统中的词性分数对照表,将各个目标分词对应的权重参数记录在预置哈希表中;遍历待处理文本,获取所述目标分词的关联分词以及所述关联分词的词性,并将所述关联分词的权重参数记录在哈希表中;提取分数总值前五的目标分词和/或关联分词为所述待处理文本的关键词。本发明还公开了一种装置、服务器及存储介质。根据中心思想中的目标分词减小了误差,提高了文本关键词的准确性。
  • 一种优化的文本摘要生成方法-201910981470.3
  • 刘博;申利彬 - 北京工业大学
  • 2019-10-16 - 2020-02-07 - G06F40/284
  • 一种优化的文本摘要生成方法属于自然语言生成领域,尤其涉及序列到序列文本摘要生成的相关方法。首先将中文数据进行清洗等预处理,将文章送入Encoder端的AS‑CNN模型提取特征,然后将特征送入由Transformer组成的Decoder端。该网络不仅可以利用CNN网络与Transformer的并行能力,充分发挥硬件的效果加快训练速度,而且在Encoder端使用CNN,减少了模型的参数,避免过拟合问题,也扩展了模型的使用范围。
  • 一种面向神经网络机器翻译的英文词法分析方法及系统-201911028075.X
  • 张孝飞;范婷婷;王芳;任明雪;李程 - 北京中献电子技术开发有限公司
  • 2019-10-25 - 2020-01-31 - G06F40/284
  • 本发明提供一种面向神经网络机器翻译的英文词法分析方法,包括如下步骤:对待处理的英文文本进行英文分词;对英文分词后得到的每一个单词利用特殊词汇表进行查询筛选;对查询到的单词的结果信息保留在词法分析结果中;对未查询到的单词进行规则处理;对于符合规则处理条件的单词进行词架构还原,对于不符合规则处理条件的单词,直接将单词保存在词法分析结果中;输出词法分析结果,并将所述词法分析结果加入到机器深度学习训练当中。本发明还提供了一种面向神经网络机器翻译的英文词法分析系统。本发明所述的面向神经网络机器翻译的英文词法分析方法,可解决神经网络机器翻译的训练语料数据稀疏,造成机器学习效率下降、翻译质量不佳的问题。
  • 关键信息提取模型及其构建方法-201810681052.8
  • 王旭;韩中华;吴雪军 - 鼎复数据科技(北京)有限公司
  • 2018-06-27 - 2020-01-24 - G06F40/284
  • 本发明公开了一种关键信息提取模型及其构建方法,该方法中,需要从特定文档中提取包含关键词的基础样本;再判断并标注所述基础样本中记载内容对应的关键信息类别,在对所述基础样本做分词处理后,搭建CNN神经网络,训练基础样本,得到关键信息提取模型,其中关键信息提取模型的输入包括每个词的词向量、该词与关键词的相对位置向量、该词的实体类型向量,还要将对应的标题作为输入,从而进一步提升模型准确率。
  • 词向量训练方法和装置-201710023520.8
  • 李建欣;刘垚鹏;彭浩;陈汉腾;张日崇 - 北京航空航天大学
  • 2017-01-12 - 2020-01-24 - G06F40/284
  • 本发明提供一种词向量训练方法和装置,其中词向量训练方法包括:获取新增词汇库,新增词汇库中的词汇与旧词汇库中的词汇构成新词汇库,旧词汇库中的词汇对应有旧词向量;对新词汇库中的词汇进行初始化处理,使得新词汇库中属于旧词汇库中的词汇的词向量为旧词向量,新词汇库中属于新增词汇库中的词汇词向量为随机词向量;根据旧词汇库对应的噪声分布和新词汇库对应的噪声分布分别对新词汇库中词汇的词向量进行更新。本发明提供的词向量训练方法和装置,减少了训练词向量时的计算量。
  • 一种面向汽车发动机故障诊断的命名实体识别方法-201910802054.2
  • 陈志成;刘孝保;阴艳超;陆宏彪 - 昆明理工大学
  • 2019-08-28 - 2020-01-17 - G06F40/284
  • 本发明公开了一种面向汽车发动机故障诊断的命名实体识别方法,包括步骤1:建立汽车发动机故障诊断命名实体识别文本语料库;步骤2:对语料库进行预处理;步骤3:对预处理后的文本数据进行分布式表示,通过BERT语言模型得到文本预训练“词+词性”向量;步骤4:将得到的文本预训练“词+词性”向量输入到BiLstm神经网络中进行文本特征提取;步骤5:在BiLstm神经网络后引入Attention机制捕捉文本特征中较为重要的部分;步骤6:结合CRF模型,得到汽车发动机故障诊断命名实体识别的最优标注序列。本发明解决了现有方法中缺少汽车发动机故障诊断相关的数据集,知识实体句法特征明显,知识实体内部存在大量修饰词干扰,实体全文标签不一致,从而使得命名实体识别结果准确率低的问题。
  • 基于神经网络监控网络舆情的方法、装置及存储介质-201910915242.6
  • 李保印;蒋哲峰;刘涛;张宝玉;王坤 - 中电万维信息技术有限责任公司
  • 2019-09-26 - 2020-01-17 - G06F40/284
  • 一种基于神经网络监控网络舆情的方法、装置及存储介质,方法包括:对预设时长内的训练文本进行结巴分词处理,删除停用词,得到多个词条;确定多个词条所属的类别总数,根据类别总数和每个词条在训练文本中出现的概率分别计算每个词条的词条特征向量;根据词条特征向量分别计算各词条的信息熵;删除信息熵小于预设信息熵的词条,得到结构化文本;计算结构化文本中的文本词条特征总数,将文本词条特征总数作为神经网络模型的输入神经元个数,根据输入神经元个数确定神经网络模型的输出神经元个数和隐藏神经元个数;随机生成神经网络模型的初始权值;基于神经网络模型对结构化文本进行情感分析,得到输出值,根据输出值确定结构化文本的情感类型。
  • 一种基于循环神经网络的中文词义消岐方法-201910921615.0
  • 周雪松;赵凌云;其他发明人请求不公开姓名 - 哈尔滨理工大学
  • 2019-09-27 - 2020-01-17 - G06F40/284
  • 本发明涉及一种基于循环神经网络(Recurrent Netural Networks,RNN)的中文词义消歧方法。本发明首先对语料进行预处理。该步骤对训练预料和测试预料包含歧义词汇的语句进行分词和特征标注处理。处理好的训练预料用于训练RNN模型,目的是对模型进行优化。利用优化后的RNN模型,对测试预料进行消歧,可得到歧义词汇在各语义类别下的概率分布向量。在这个向量中,最大值对应的语义类即判别为歧义词汇的语义类。本发明具有较好的词义消歧效果,可以对歧义词汇的含义进行更好的判断。
  • 客户对话中的自动向上销售-201880029405.4
  • 肖·亨利 - 艾赛普公司
  • 2018-02-26 - 2020-01-17 - G06F40/284
  • 在客户与客户支持代表之间的对话期间,可向客户支持代表呈现建议,以向客户向上销售产品。可通过计算机处理关于客户的信息和/或关于对话的信息,以确定何时向客户支持代表建议向上销售和将要被向上销售的一个或多个产品。可通过从关于客户的信息和关于对话的信息中计算特征并利用一个或多个分类器处理特征来执行该确定。
  • 周期词挖掘方法、系统、电子设备及可读存储介质-201810738295.0
  • 邝秋鸿;邵荣防;郝晖;欧阳硕;谢群群;刘儒君 - 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
  • 2018-07-06 - 2020-01-14 - G06F40/284
  • 本发明公开了一种周期词挖掘方法、系统、电子设备及可读存储介质,周期词挖掘方法包括:获取一预设时间段内所有用户的检索数据,检索数据包括多个检索关键词和每个关键词的检索时间;对每个检索关键词检测检索关键词是否具有热搜时间段,检索关键词在热搜时间段内的检索次数达到在预设时间段内的检索总次数的预设百分比;若包含,生成检索关键词的特征标签;预设一周期特征标签库,周期特征标签库存储有多个周期特征标签;计算特征标签与每个周期特征标签的相似度;判断计算得到的最高相似度是否高于一预设阈值,若高于,则确认检索关键词为周期词。本发明的周期词挖掘方法使用灵活,数据成本低,符合用户习惯,且有较高的准确性。
  • 信息处理装置及其分词处理方法-201811400632.1
  • 王卓然;亓超;马宇驰;侯兴林 - 三角兽(北京)科技有限公司
  • 2017-06-28 - 2020-01-14 - G06F40/284
  • 本发明提供一种信息处理装置及其分词处理方法,所述信息处理装置包括:选择单元,其被配置对分词对象进行分词,获得表示为多个词的组合的分词结果;第一拼接单元,其被配置为对所述组合中的相邻词进行拼接处理;序列标注单元,其被配置为利用序列标注模型,对由所述第一拼接单元进行拼接处理后的所述组合中的各词进行序列标注,并根据序列标注的结果对所述组合中的词进行合并;以及第二拼接单元,其被配置根据预定规则对由所述序列标注单元进行合并后的词进行拼接。
  • 一种文字交互方法及服务端设备-201910854445.9
  • 滕铮浩;吴杰;金仁杰;章海华 - 吴杰
  • 2019-09-10 - 2020-01-10 - G06F40/284
  • 本发明公开了一种文字交互方法及服务端设备,文字交互方法包括:接收用户端输入的至少一文字段;文字段通过分词获得词语组,词语组与词包库匹配获得文字段关键词组;文字段关键词组与设置有场景关键词组的场景节点匹配,根据文字段关键词组与所述场景关键词组的匹配程度选择匹配程度高的场景节点,输出匹配程度高的场景节点中的回复文字段。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top