[发明专利]一种基于采样的文献检测方法及系统有效

专利信息
申请号: 201610019515.5 申请日: 2016-01-13
公开(公告)号: CN105701206B 公开(公告)日: 2018-10-09
发明(设计)人: 夏峰;洪学文;曾文斌 申请(专利权)人: 湖南通远网络科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京冠和权律师事务所 11399 代理人: 朱健;陈国军
地址: 410000 湖南省长沙市芙蓉区荷*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于采样的文献检测方法及系统。其中,对比库,收录素材;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。
搜索关键词: 一种 基于 采样 文献 检测 方法 系统
【主权项】:
1.一种基于采样的文献检测系统,其特征在于,包括:对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;其中,分词精简向量维数生成模块采用等间隔抽取法对分词自由向量维数WFV进行精简;精简过程如下:判断分词自由向量维数WFV是否大于分词精简向量维数RWV,如果是,则将分词自由向量维数WFV除以系统指定的分词精简向量维数RWV,并对所得到的商值进行上取整运算,进一步得到精简系数REDU;则在分词自由向量维数WFV所对应的特征值中每间隔REDU‑1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于分词精简向量维数RWV;当所提取的特征值的数量等于分词精简向量维数RWV时,则完成分词自由向量维数WFV精简;当所提取的特征值的数量小于分词精简向量维数RWV时,则计算分词精简向量维数RWV与特征值数量的差值;在未被提取的特征值中随机提取与分词精简向量维数RWV与特征值的差值数量相等的特征值,完成分词自由向量维数WFV的精简;分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_NTBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW];素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,W_IDW,W_NW];普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南通远网络科技有限公司,未经湖南通远网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610019515.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top