[发明专利]基于海量数字图书的知识脉络自动构建方法有效

专利信息
申请号: 201710945019.7 申请日: 2017-10-12
公开(公告)号: CN107908650B 公开(公告)日: 2019-11-05
发明(设计)人: 鲁伟明;马朋坤;魏宝刚;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/21 分类号: G06F16/21;G06F16/22;G06N5/02;G06N20/00
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静;邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于海量数字图书的知识脉络自动构建方法;将数字图书的元数据信息存储到Lucene索引文件中,如果用户检索主题q,则可获得q相关的图书集合;通过加权的word2vec方法计算目录标题之间的相似度,通过自底向上的凝聚型层次聚类算法对q相关教科书的一级目录进行聚类得到知识单元集合;根据图书中章节之间的偏序关系构建知识单元之间的连接关系,最终构建完整的知识图;从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径,将学习路径构成的知识脉络仿照地铁图的形式进行可视化展示。本发明首次提出了一个基于海量数字图书的摘要提取框架,该框架提取出的知识脉络能够综合考虑信息度、流畅度和覆盖度,能够方便用户快速高效地进行知识学习。
搜索关键词: 基于 海量 数字 图书 知识 脉络 自动 构建 方法
【主权项】:
1.一种基于海量数字图书的知识脉络自动构建方法,其特征在于,包括以下步骤:1)图书预处理:将数字图书的元数据信息存储到Lucene索引文件中;用XML解析器将目录的结构解析出来,并清洗目录标题中的冗余信息;2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;3)知识图构建:用步骤2)中构建的知识单元作为结点,用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图,即知识图;4)学习路径选择:使用动态规划算法遍历步骤3)得到的知识图,得到所有的学习路径,引入信息度和流畅度计算公式,信息度衡量路径中是否包含重要的结点和重要的结点对,知识单元对{oi,oi+1}的信息度w(oi,oi+1)计算公式如下:其中,freq(oi)指知识单元oi中包含的目录数,dif(b,i)指知识单元oi和oi+1中同属于书b中的两个目录之间的距离,如果两个目录在同一本书b中,且它们又分别属于知识单元oi和oi+1,那么表示目录在书b中的相对位置,否则,dif(b,i)=∞;Bq表示用户检索主题q相关的图书集合;路径的信息度I(pi)计算公式如下:其中,|pi|为路径pi的长度,s为路径开始,e为路径结束;流畅度衡量学习路径中知识单元之间顺序的质量,对于路径使用语言模型来计算其流畅度F(pi),计算公式如下:其中,p(oi|oi‑2oi‑1)指给定oi‑2oi‑1的情况下出现oi的概率,c(oi‑2oi‑1oi)指知识单元oi‑2,oi‑1,oi同时出现的次数;路径pi的打分s(pi)=I(pi)·F(pi),用整数线性规划优化框架选择最好的TOP K条学习路径,求解器的目标函数如下:其中,|Pq|表示用户检索主题q相关的路径集合Pq的数量,di是一个二进制变量,取值为0或1,取决于路径pi是否被选择;约束条件如下:a)确保只有不超过K条路径被选择:b)如果两条路径的相似度sim(pi,pj)大于等于阈值那么只有一条可以被选择,即:其中,sim(pi,pj)使用jaccard相似度公式计算;最终,从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径;5)知识脉络可视化:将步骤4)选择出的学习路径构成的知识脉络进行可视化展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710945019.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top