[发明专利]一种针对事件的话题表示生成方法及系统有效
申请号: | 201910909274.5 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110795943B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 史存会;王伟玉;俞晓明;刘悦;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/34 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;张燕华 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种针对事件的话题表示生成方法及系统,包括:获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合;统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示。本发明无需人工干预,其中不存在人为因素,省时省力。因此,相比现有的技术,提高了针对事件的话题表示的可读性,经过筛选处理得到的话题表示也较精炼和准确。 | ||
搜索关键词: | 一种 针对 事件 话题 表示 生成 方法 系统 | ||
【主权项】:
1.一种针对事件的话题表示生成方法,其特征在于,包括:/n步骤1、获取包含多个文档的文档集,且该多篇文档表述同一事件,提取该文档集中各个文档的标题,形成该事件的标题集合;/n步骤2、通过对该标题集合中每N个标题获取其最长公共子序列,得到该标题集合的最长公共子序列集合,其中N为大于1的正整数;/n步骤3、统计该最长公共子序列集合中各非空最长公共子序列的出现次数,选择出现次数最多的前K个高频最长公共子序列,从该前K个高频最长公共子序列中筛选出1个高频最长公共子序列作为该事件的话题表示,其中K为小于集合长度的正整数。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910909274.5/,转载请声明来源钻瓜专利网。