[发明专利]一种基于谓词的多源数据集清洗方法有效
申请号: | 201810578708.3 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108776697B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 谢子哲;李论;刘奇志 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于谓词的多源数据集清洗方法所提供的方法能够有效从同构多源数据集中识别出最可靠的数据项,涉及数据清洗、数据融合等领域。所述方法包括:1)用自动化方法挖掘谓词,并对挖掘出来的谓词进行过滤;2)根据谓词推导数据集中各实体的属性值的可信度;3)建立属性值可信度跟数据源可信度之间的关系,计算数据源可信度;4)结合数据源可信度和属性值可信度找出可信度最高的数据项。对于多个数据源,本发明可以对来自不同数据源但内容相同的信息进行分析,过滤掉冗余、错误和过时的数据,留下可信度最高的数据,为后续数据分析夯实基础,对后续数据处理的效率和准确率具有重要意义。 | ||
搜索关键词: | 一种 基于 谓词 数据 清洗 方法 | ||
【主权项】:
1.一种基于谓词的多源数据集清洗方法,其特征在于,包括步骤:(1)构建谓词模型:定义优先级谓词、状态谓词和交互谓词;其中,优先级谓词为Prior(Ai,Aj),表示属性Ai的优先级高于属性Aj的优先级;状态谓词为:其中,ti表示语句i,表示语句i中属性Ak的属性值,表示预定义的与之间满足的条件,φ(ti,tj)表示预定义的ti与tj之间满足的条件;Stat(Ak)表示当ti和tj满足条件P和φ时,ti的质量高于tj;交互谓词为:Interδ(A1,…,Al),表示当数据满足条件δ时,该条数据的属性A1,…,Al的属性值质量差;(2)通过步骤(1)定义的谓词模型对待清洗的数据集进行谓词挖掘,得到数据集中的优先级谓词、状态谓词和交互谓词;(3)根据得到的谓词推导数据集中各数据的属性值可信度,包括步骤:(3‑1)初始化数据集中数据的所有属性值可信度为0,并为每一条数据的各属性值设置影响因子η,η为一个常数;(3‑2)运用状态谓词和交互谓词更新每条数据各属性值的可信度,更新时,先运用状态谓词更新再运用交互谓词更新,或先运用交互谓词更新再运用状态谓词更新;运用状态谓词更新数据各属性值的可信度的步骤为:两两枚举数据集中的两条数据ti和tj,如果ti和tj在属性Ak上满足状态谓词:则将属性值的可信度减去η;运用交互谓词更新数据各属性值的可信度的步骤为:遍历数据集中的所有数据,如果一条数据满足某个交互谓词Interδ(A1,…,Al),则将该条数据属性A1,…,Al的属性值的可信度减去η;(3‑3)在步骤(2)完成后,运用优先级谓词更新每条数据的属性值可信度,更新时,按照优先级从高到低的顺序依次执行优先级谓词;执行优先级谓词Prior(Ai,Aj)的步骤为:若多条数据在属性Aj上的属性值的可信度相同,则将它们按照Ai的属性值可信度做升序排序,按照排序后的顺序,在排在第n位的数据的Aj的属性值可信度上加上n‑1;(3—4)得到所有属性值的可信度后,对于多值属性,返回所有可信度大于等于预设阈值的属性值作为结果;对于只需要返回一个结果的属性,执行步骤(4)至(6);(4)将所有属性值的可信度进行归一化;根据公式计算待清洗数据集中所有数据源的可信度;其中,λi表示数据源Di的可信度,t表示数据源Di中的一条数据,d(t)表示数据t的可信度,数据t的可信度等于该条数据所有属性值可信度之和;(5)根据公式更新各属性值的可信度,D′表示对于属性Aj提供属性值的数据源;更新后返回步骤(4);(6)重复执行步骤(4)至(5),直至所有属性值的可信度收敛;对于只需返回一个结果的属性,找出该属性下可信度最高的属性值为最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810578708.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置