[发明专利]数据标准化方法、装置以及电子设备有效
申请号: | 201911219128.6 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111078639B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 张云 | 申请(专利权)人: | 望海康信(北京)科技股份公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/215;G06F16/24 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 标准化 方法 装置 以及 电子设备 | ||
1.一种数据标准化方法,其特征在于,包括:
获取待标准化数据以及标准化字典库中的各标准化字典;
基于所述待标准化数据对预设的标准化结果库进行检测,响应于所述标准化结果库中不存在所述待标准化数据的标准化结果,确定各标准化字典所对应的预置数据匹配模型;
对于任一标准化字典,所述预置数据匹配模型的数据匹配算法,是基于所述待标准化数据中各字段与所述标准化字典中对应字段的匹配结果、以及各字段对应的权重确定的,所述数据匹配算法的表达式为:
其中,所述MK为待标准化数据中第k个字段与所述标准化字典中对应字段的匹配结果;
所述WK为第k个字段的权重;
基于所述预置数据匹配模型,将所述待标准化数据分别与各标准化字典进行匹配得到匹配结果,并基于所述匹配结果确定目标标准化字典;
基于所述目标标准化字典,确定所述待标准化数据的标准化结果;
将确定出的标准化结果发送给对应的用户客户端;
接收针对所述标准化结果的人工校验结果,基于所述人工校检结果,确定校验后的标准化结果,并将所述校验后的标准化结果加入到所述标准化结果库中;
其中,若基于所述人工校验结果确定所述确定出的标准化结果存在错误,所述方法还包括:
基于所述待标准化数据和所述校验后的标准化结果,调整所述目标标准化字典对应的预置数据匹配模型中各字段的权重,以优化所述目标标准化字典对应的预置数据匹配模型。
2.根据权利要求1所述的方法,其特征在于,所述匹配结果包括相似度匹配结果;
所述基于所述预置数据匹配模型,将所述待标准化数据分别与各标准化字典进行匹配得到匹配结果,包括:
对于各标准化字典,将所述待标准化数据以及所述标准化字典输入至与所述标准化字典对应的预置数据匹配模型,得到所述待标准化数据与所述标准化字典的相似度匹配结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述匹配结果确定目标标准化字典,包括:
确定最大相似度匹配结果对应的标准化字典为所述目标标准化字典。
4.根据权利要求3所述的方法,其特征在于,所述确定最大相似度匹配结果对应的标准化字典为所述目标标准化字典,包括:
若所述相似度匹配结果中存在至少一个相似度匹配结果超过匹配阈值,则确定最大相似度匹配结果对应的标准化字典为所述目标标准化字典;
所述方法还包括:
若所述相似度匹配结果均没有超过所述匹配阈值,则将相似度较高的前N个相似度匹配结果对应的标准化字典发送给管理人员对应的终端设备,并接收所述终端设备发送的确定结果,并基于所述确定结果中包含目标标准化字典的指示信息确定目标标准化字典,所述N为大于0的整数。
5.根据权利要求1所述的方法,其特征在于,对于任一标准化字典,各字段对应的权重是通过以下方式确定的:
获取训练样本数据,所述训练样本数据包括各样本未标准化数据、以及各样本未标准化数据与标准化字典的样本匹配结果;
基于所述训练样本数据,对所述标准化字典的数据匹配算法对应的各权重进行优化调整,直至基于所述数据匹配算法确定的各样本未标准化数据与标准化字典的匹配结果,与对应的样本匹配结果满足预设条件。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
若标准化结果库中存在所述待标准化数据的标准化结果,则从所述标准化结果库中确定所述待标准化数据的标准化结果。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取待标准化数据之后,所述基于所述预置数据匹配模型,将所述待标准化数据分别与各标准化字典进行匹配得到匹配结果之前,所述方法还包括:
基于预置的数据校检规则,对所述待标准化数据进行数据校检;
基于预置的数据清洗规则,对校检后的所述待标准化数据进行数据清洗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于望海康信(北京)科技股份公司,未经望海康信(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911219128.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油尺管快插接头
- 下一篇:医学图像检测方法、计算机设备和可读存储介质
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置