[发明专利]一种基于谓词的多源数据集清洗方法有效

专利信息
申请号: 201810578708.3 申请日: 2018-06-06
公开(公告)号: CN108776697B 公开(公告)日: 2020-06-09
发明(设计)人: 谢子哲;李论;刘奇志 申请(专利权)人: 南京大学
主分类号: G06F16/215 分类号: G06F16/215
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于谓词的多源数据集清洗方法所提供的方法能够有效从同构多源数据集中识别出最可靠的数据项,涉及数据清洗、数据融合等领域。所述方法包括:1)用自动化方法挖掘谓词,并对挖掘出来的谓词进行过滤;2)根据谓词推导数据集中各实体的属性值的可信度;3)建立属性值可信度跟数据源可信度之间的关系,计算数据源可信度;4)结合数据源可信度和属性值可信度找出可信度最高的数据项。对于多个数据源,本发明可以对来自不同数据源但内容相同的信息进行分析,过滤掉冗余、错误和过时的数据,留下可信度最高的数据,为后续数据分析夯实基础,对后续数据处理的效率和准确率具有重要意义。
搜索关键词: 一种 基于 谓词 数据 清洗 方法
【主权项】:
1.一种基于谓词的多源数据集清洗方法,其特征在于,包括步骤:(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;(3)根据得到的谓词推导数据集中各数据的属性值可信度,包括步骤:(3‑1)初始化数据集中数据的所有属性值可信度为0,并为每一条数据的各属性值设置影响因子η,η为一个常数;(3‑2)运用状态谓词和交互谓词更新每条数据各属性值的可信度,更新时,先运用状态谓词更新再运用交互谓词更新,或先运用交互谓词更新再运用状态谓词更新;运用状态谓词更新数据各属性值的可信度的步骤为:两两枚举数据集中的两条数据ti和tj,如果ti和tj在属性Ak上满足状态谓词:则将属性值的可信度减去η;运用交互谓词更新数据各属性值的可信度的步骤为:遍历数据集中的所有数据,如果一条数据满足某个交互谓词Interδ(A1,…,Al),则将该条数据属性A1,…,Al的属性值的可信度减去η;(3‑3)在步骤(2)完成后,运用优先级谓词更新每条数据的属性值可信度,更新时,按照优先级从高到低的顺序依次执行优先级谓词;执行优先级谓词Prior(Ai,Aj)的步骤为:若多条数据在属性Aj上的属性值的可信度相同,则将它们按照Ai的属性值可信度做升序排序,按照排序后的顺序,在排在第n位的数据的Aj的属性值可信度上加上n‑1;(3—4)得到所有属性值的可信度后,对于多值属性,返回所有可信度大于等于预设阈值的属性值作为结果;对于只需要返回一个结果的属性,执行步骤(4)至(6);(4)将所有属性值的可信度进行归一化;根据公式计算待清洗数据集中所有数据源的可信度;其中,λi表示数据源Di的可信度,t表示数据源Di中的一条数据,d(t)表示数据t的可信度,数据t的可信度等于该条数据所有属性值可信度之和;(5)根据公式更新各属性值的可信度,D′表示对于属性Aj提供属性值的数据源;更新后返回步骤(4);(6)重复执行步骤(4)至(5),直至所有属性值的可信度收敛;对于只需返回一个结果的属性,找出该属性下可信度最高的属性值为最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810578708.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top