[发明专利]文本处理方法、装置、计算机设备以及存储介质有效

专利信息
申请号: 202010872702.4 申请日: 2020-08-26
公开(公告)号: CN112035662B 公开(公告)日: 2021-06-08
发明(设计)人: 叶志豪;文瑞;陈曦;张子恒;李智勇 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 熊永强;杜维
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置 计算机 设备 以及 存储 介质
【权利要求书】:

1.一种文本处理方法,其特征在于,包括:

获取目标文本,所述目标文本包括N个目标词组,所述N是正整数;

根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,K和V均是正整数;

识别所述目标文本与所述K个文本主题之间的匹配权重特征,调用扩展知识模型中的第一神经感知器,将所述主题词组权重特征集合压缩为源主题知识特征矩阵;

调用所述扩展知识模型中的第二神经感知器,将所述主题词组权重特征集合压缩为目标主题知识特征矩阵;

将所述源主题知识特征矩阵和每个目标词组的主题上下文特征进行匹配,得到记忆权重特征;

将所述匹配权重特征和所述记忆权重特征叠加为集成权重特征;

将所述集成权重特征和所述目标主题知识特征矩阵进行加权求和,得到所述目标文本的扩展主题特征;

将所述扩展主题特征和N个目标词组的主题上下文特征组合为目标文本特征,识别所述目标文本特征,得到所述目标文本所属的业务文本类型。

2.根据权利要求1所述的方法,其特征在于,所述根据K个文本主题和V个词汇表词组之间的主题词组权重特征集合,确定每个目标词组与K个文本主题的主题上下文特征,包括:

获取每个目标词组的词向量特征;

根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征;

根据所述主题词组权重特征集合和每个目标词组的局部上下文特征,确定每个目标词组与K个文本主题的全局主题上下文特征;

将每个目标词组的局部上下文特征和全局主题上下文特征叠加为每个目标词组与K个文本主题的主题上下文特征。

3.根据权利要求2所述的方法,其特征在于,针对N个目标词组中的任一目标词组,根据N个目标词组的词向量特征确定所述任一目标词组的局部上下文特征的流程包括:

分别确定所述任一目标词组的词向量特征和N个目标词组的词向量特征之间的第一特征相似度;

将N个第一特征相似度进行归一化处理,得到N个标准第一特征相似度;

将N个标准第一特征相似度和N个目标词组的词向量特征进行加权求和,得到所述任一目标词组的局部上下文特征。

4.根据权利要求2所述的方法,其特征在于,所述根据N个目标词组的词向量特征,确定每个目标词组的局部上下文特征,包括:

获取每个目标词组在所述目标文本中的词组位置特征,获取每个目标词组在所述目标文本中的语句位置特征;

将每个目标词组的词向量特征、词组位置特征和语句位置特征拼接为每个目标词组的输入特征;

对N个输入特征进行多注意力编码,得到每个目标词组的局部上下文特征。

5.根据权利要求2所述的方法,其特征在于,所述主题词组权重特征集合包括K个主题词组权重特征,任一主题词组权重特征表示任一文本主题和V个词汇表词组之间的匹配权重;

针对N个目标词组中的任一目标词组,根据所述主题词组权重特征集合和所述任一目标词组的局部上下文特征确定所述任一目标词组与K个文本主题的全局主题上下文特征的流程包括:

确定所述任一目标词组的局部上下文特征和每个主题词组权重特征之间的第二特征相似度;

将K个第二特征相似度进行归一化处理,得到K个标准第二特征相似度;

将K个标准第二特征相似度和K个主题词组权重特征进行加权求和,得到所述任一目标词组与K个文本主题的全局主题上下文特征。

6.根据权利要求1所述的方法,其特征在于,所述识别所述目标文本与所述K个文本主题之间的匹配权重特征,包括:

根据所述V个词汇表词组的排布顺序,将所述目标文本转换为词袋特征;

调用神经主题模型中的编码器对所述词袋特征进行编码处理,得到文本编码特征;

调用所述神经主题模型中的解码器对所述文本编码特征进行重构处理,得到所述目标文本与所述K个文本主题之间的匹配权重特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010872702.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top