[发明专利]一种基于语义向量的短文本相似性度量方法有效

申请号：	201910279109.6	申请日：	2019-04-09
公开（公告）号：	CN109977418B	公开（公告）日：	2023-03-31
发明（设计）人：	刘文松;林峰;胡竹青;张锦辉;张鹏;杨燕吉;张志鹏;邵瑞;朱泐	申请（专利权）人：	南瑞集团有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/211;G06F18/22
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林;张赏
地址：	211106 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于语义向量的短文本相似性度量方法，对短文本t1和t2分词后，根据根动词的分布判断短文本是否存在事件块；如存在，基于根动词提取事件块，并对事件块的语义相似性进行分析。如相似，依据分词位置和词性提取修饰块，并对修饰块的语义相似性进行分析。在此基础上，以短文本t1的修饰块顺序为基准，在短文本t2中查找语义相同的块，调整到对应顺序。最后用词向量表示分词，构建短文本的语义向量，计算二者的余弦距离，作为语义相似性度量。本发明方法通过依存句法分析，提取事件块和修饰块，块内部是具有一定语义关系的若干分词，兼顾了局部的语义关系；通过基于语义分析的块交换，兼顾了多样化的语言表达特点。
搜索关键词：	一种基于语义向量短文相似性度量方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于语义向量的短文本相似性度量方法，其特征在于，包括以下步骤：1)对短文本t₁和t₂进行分词，同时得到短文本t₁和t₂的分词词性；2)根据短文本t₁和t₂的分词和词性，进行依存句法分析，获得句法结构；3)根据根动词分布，对短文本t₁和t₂分类分析，分类分析如下：a)如果短文本t₁与t₂均不存在根动词，则采用通用语义相似性公式计算短文本t₁与t₂的相似性，并输出结果；b)如果短文本t₁与t₂任意一者存在根动词，而另一者不存在根动词，则语义相似性为0，并输出结果；c)如果短文本t₁与t₂均存在根动词，则提取事件块，然后进入步骤4)；4)对短文本t₁与t₂的事件块进行语义相似性分析；如果短文本t₁与t₂的事件块的语义相似性计算为0，则语义不相似；如果短文本t₁与t₂的事件块的语义相似性计算结果大于设定的阈值，则语义相似，则提取修饰块；5)以短文本t₁的修饰块顺序为基准，采用通用语义相似性公式，依次计算短文本t₁中修饰块与短文本t₂中修饰块的语义相似性；如果计算结果大于设定的阈值，则语义相似，则将短文本t₂的修饰块调整到与t₁相对应的位置；否则语义不相似，不调整；6)修饰块交换后，将短文本t₁和t₂所有分词由词向量表示；短文本t₁和t₂中所有的分词都用词向量表示后，即构成短文本t₁和t₂的语义向量；7)对短文本t₁和t₂的语义向量计算余弦距离，作为二者的语义相似性，输出计算结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南瑞集团有限公司，未经南瑞集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910279109.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于语义向量的短文本相似性度量方法有效

专利文献下载