[发明专利]基于主题模型的文章特征抽取方法有效

专利信息
申请号: 201511016955.7 申请日: 2015-12-29
公开(公告)号: CN105631018B 公开(公告)日: 2018-12-18
发明(设计)人: 沈嘉明;宋振宇;李世韬;毛宇宁;谈兆炜;朱鸿儒;王乐群;郭运奇;王彪;傅洛伊;王新兵 申请(专利权)人: 上海交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 郭国中
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于主题模型的文章特征抽取方法,包括:基于原始语料库构建文章的引用关系网络,构建主题模型的生成模型和参数联合表达式,根据所述生成模型构建主题模型的推断过程,对新语料库采样文章,根据采样文章的采样结果提取文章参数。本发明使用了文章引用网络以扩展传统的主题模型,从而提取出更加精确的文章特征。
搜索关键词: 基于 主题 模型 文章 特征 抽取 方法
【主权项】:
1.一种基于主题模型的文章特征抽取方法,其特征在于,包括:步骤A:基于原始语料库构建文章的引用关系网络,设定初始文章集合并根据引用关系网络得到新语料库;步骤B:针对新语料库,构建主题模型的生成模型和参数联合表达式;步骤C:根据所述生成模型构建主题模型的推断过程;步骤D:根据主题模型的推断过程,对新语料库采样文章;步骤E:根据采样文章的采样结果提取文章参数;所述步骤B包括:步骤B1:对新语料库的各个主题,执行如下步骤:基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数其中,β是所服从的狄利克雷分布的参数;k为正整数;步骤B2:对新语料库的各篇文章,执行如下步骤:基于狄利克雷超参数α生成第m篇文章到主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;基于狄利克雷超参数η生成第m篇文章的引用强度分布的多项式参数δm;其中,η是δm所服从的狄利克雷分布的参数;基于贝塔分布的超参数组生成第m篇文章的原创指数的伯努利参数λm;其中,是λm所服从的贝塔分布的参数;步骤B3:对各篇文章中的各个词执行如下步骤:生成服从伯努利参数为λm的伯努利分布的第m篇文章的第n个词的原创指数sm,n;n为正整数;‑如果sm,n为1,则生成服从参数为δm的多项式分布的引用文章cm,n,生成服从参数为的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;‑如果sm,n为0,则生成服从参数为θm的多项式分布的主题zm,n,生成服从参数为的多项式分布的词wm,n;其中,表示矩阵θ对应cm,n的行向量,表示矩阵对应zm,n的行向量;θ表示文章到主题的分布矩阵,表示主题到词的分布矩阵,wm,n代表第m篇文章中的第n个词,zm,n代表第m篇文章中的第n个词的主题,cm,n代表第m篇文章中的第n个词且该第n个词是非原创词所引用文章;步骤B4:构建主题模型的联合概率分布如下:其中,p(A|B)表示B条件下A的概率,符号→表示向量;为主题到词的分布,为文章到主题的分布,为文章的引用的分布,为文章中原创词的分布,为第k个主题下的词频,K表示主题数量,为第m篇文章下主题的频数,M为文章数量,为第m篇文章的引用的频数,为第m篇文章中非原创词的频数,为第m篇文章中原创词的频数;B(p,q)表示参数为p和q的贝塔分布;△(·)定义为:其中,为向量的维数,Γ为Gamma函数,Ak表示向量的第k个分量;所述步骤C包括:步骤C1:采用如下吉布斯采样公式进行参数估计:其中,表示向量去除zm,n对应的分量;符号∝表示正比于;代表主题zm,n下,词wm,n出现的频数;表示向量中wm,n对应的分量;V表示总词数;表示zm,n中第t个词出现的频数;βt表示向量的第t个分量;表示cm,n中主题为zm,n且sm,n=0的词的频数;表示cm,n中主题为zm,n且sm,n=1的词的频数;表示向量的zm,n对应的分量;表示cm,n中主题为第k个主题且sm,n=0的词的频数;表示cm,n中主题为第k个主题且sm,n=1的词的频数;αk表示向量的第k个分量;表示向量去除cm,n对应的分量;表示第m篇文章中来自cm,n的词数,表示向量的cm,n对应的分量;Lm表示第m篇文章总共引用文章的数目;表示第m篇文章中来自第r篇被引用的文章的词数;ηr表示向量的第r个分量;表示向量去除sm,n对应的分量;表示表示代表第m篇文章中所有非原创的词的频数;代表所有原创的词的频数;表示第m篇文章中主题为zm,n且sm,n=0的词的频数;表示第m篇文章中主题为zm,n且sm,n=1的词的频数;表示表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;表示表示第m篇文章中主题为第k个主题且sm,n=0的词的频数;代表第m篇文章中所有非原创的词的频数,代表第m篇文章中所有原创的词的频数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201511016955.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top