[发明专利]基于多路分块的渐近式实体识别方法有效
申请号: | 201710122912.X | 申请日: | 2017-03-03 |
公开(公告)号: | CN106909679B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 申德荣;孙琛琛;寇月;聂铁铮;于戈 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/245 |
代理公司: | 21234 沈阳优普达知识产权代理事务所(特殊普通合伙) | 代理人: | 俞鲁江 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。 | ||
搜索关键词: | 基于 分块 渐近 实体 识别 方法 | ||
【主权项】:
1.一种基于多路分块的渐近式实体识别方法,其特征在于:包括以下步骤:/n步骤1.多路分块,利用多个分块键K={k
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710122912.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种固定式立体检测方法的专用设备
- 下一篇:定位装置
- 同类专利
- 一种快速清洗、转换的数据抽取方法-201910901424.8
- 汤同伟;何静;霍荣 - 紫光云(南京)数字技术有限公司
- 2019-09-23 - 2020-02-14 - G06F16/215
- 本发明公开了一种快速清洗、转换的数据抽取方法,涉及数据抽取技术领域。本发明包括读取数据内容到内存数据库中,将数据内容分组形成若干数据段,建立多线程并为每个线程分配待处理数据块,各线程独立对数据块完成清洗和转换,将转换后的数据块合并存储到内存数据库中。本发明通过任务调度处理器判断当前线程内当前数据段与其他数据块是否存在汇总关联;若存在,在数据块清洗后对汇总关联的若干数据块汇总并重新拆分形成新数据块,并采用多线程对新数据块转换;若不存在,直接对当前数据块进行清洗、转换;最后待所有数据块清洗转换完成后,通过数据合并处理器合并,提高数据抽取效率,适用于海量数据的清洗和转换。
- 特征工程变量数据请求处理方法、装置及电子设备-201910939382.7
- 黄建庭;宋荣鑫;陈烁煌 - 北京淇瑀信息科技有限公司
- 2019-09-30 - 2020-02-14 - G06F16/215
- 本公开涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。本公开涉及的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。
- 破碎化区域采样点的地理空间分布均匀度检测方法-201711293386.X
- 董士伟;潘瑜春;高秉博;郜允兵;周艳兵;刘玉;郝星耀;金小花 - 北京农业信息技术研究中心
- 2017-12-08 - 2020-02-14 - G06F16/215
- 本发明提供一种破碎化区域采样点的地理空间分布均匀度检测方法,包括:对于采样区域中的每个采样点,根据平均采样面积和每个采样点所在泰森多边形面积,计算每个采样点的均匀因子;根据所述采样区域中的所有采样点的均匀因子,计算所述采样区域中所有采样点的地理空间分布均匀度。本发明提供的破碎化区域采样点的地理空间分布均匀度检测方法,通过计算所有采样点的均匀因子,进而计算得出采样区域中所有采样点的地理空间分布均匀度,并生成所有采样点的均匀曲线,通过均匀度对破碎化区域采样点的地理空间分布均匀度进行检测,并通过均匀曲线确定异常采样点,确保了破碎化区域采样点的可用性,有利于下一步采样点数据的去冗精化和挖掘分析。
- 一种国土空间规划数据采集系统及数据采集方法-201910827602.7
- 周楠;马晓蒙;王利峰;李向阳 - 宿州山海经测地理信息科技有限公司
- 2019-09-03 - 2020-02-11 - G06F16/215
- 本发明公开了一种国土空间规划数据采集系统及数据采集方法,属于国土空间规划技术领域,包括数据采集模块、数据传递模块和数据优化处理模块,数据采集模块包括人工输入和无人机数据采集吗,数据优化处理模块的输出端连接有数据建模模块,数据建模模块的输出端连接有控制面板,控制面板的输出端连接有显示器,无人机数据采集包括用于接收电磁波滤波接收器和摄像头,数据传递模块的输入端连接有数据采集模块,数据传递模块的输出端连接有数据优化处理模块。本发明采用滤波接收器接收不同物体发射的电磁波,同时与摄像头采集的图像信息相互整合便于确定采集信息的准确性,同时也扩大信息采集的范围,使采集的信息更加的全面。
- 期权空头策略的平仓阈值的计算方法、系统及介质-201910932323.7
- 朱秋龙;李永亮;黄志睿;曹颇知 - 上海银赛计算机科技有限公司
- 2019-09-29 - 2020-02-11 - G06F16/215
- 本发明提供了一种期权空头策略的平仓阈值的计算方法、系统及介质,包括:数据处理步骤:从金融数据网站,获取50ETF期权合约列表数据,每份50ETF期权合约的分钟级行情数据,以及上证50指数的分钟级行情数据,并进行数据处理,获得处理后的期权数据;策略运行步骤:根据获得的后的期权数据,通过运行策略判断是否开仓:若是,则进入组合跟踪步骤;否则,则当前交易日没有交易,进入下一个交易日,返回数据处理步骤继续执行;组合跟踪步骤:实时跟踪期权组合的Delta值,在符合预设条件时平仓。本发明通过样本内,样本外的滚动回测,解决Delta波动分布不均匀的情况;本发明通过计算Delta的标准差,解决原本的阈值失效的问题。
- 一种数据识别方法、装置、计算机设备及存储介质-201910970250.0
- 孟庆丰;李敏;马文豪;董晓强 - 杭州城市大数据运营有限公司;湖州市大数据运营有限公司;杭州中云数据科技有限公司
- 2019-10-12 - 2020-02-11 - G06F16/215
- 本发明适用计算机技术领域,提供一种数据识别方法、装置、计算机设备及存储介质;所述数据识别方法包括:获取待识别数据;通过预设机器学习模型对待识别数据进行识别,获得标准结果;获取待识别数据所在数据库的表结构信息,并根据表结构信息以及预设抽样规则对待识别数据进行随机抽样,获得抽样数据;根据表结构信息,确定抽样数据的数据类型;基于抽样数据的数据类型,采用与数据类型对应的预先通过训练生成的数据识别模型对抽样数据进行识别,获得预测识别结果;根据预测识别结果以及标准结果,确定数据识别结果。该方法在保证准确率的同时,降低了人力成本,提高了工作效率,而且降低了工作人员对相关领域的专业知识要求,降低了应用门槛。
- 一种使用pca和特征交叉的特征工程建模方法和系统-201910978519.X
- 袁锦程;王维强;许辽萨;赵闻飙;易灿;崔世文 - 支付宝(杭州)信息技术有限公司
- 2019-10-15 - 2020-02-11 - G06F16/215
- 本公开涉及一种使用pca和特征交叉的特征工程建模的方案,包括:对特征数据进行特征相关检测;使用独热编码对特征进行编码,并对经编码的特征执行pca算法,其中在执行独热编码的过程中,还可以对所述特征进行特征交叉;通过执行共线性选择和特征重要性选择对所述特征进行筛选;以及将筛选出的特征输出用于特征工程建模。
- 基于Promethues实现监控数据整合的方法-201911041910.3
- 郑志伟;孙初雄;马浩严;刘清华 - 浪潮云信息技术有限公司
- 2019-10-30 - 2020-02-11 - G06F16/215
- 本发明提供一种基于Promethues实现监控数据整合的方法,属于运维监控技术领域,本发明获取已经搭建好的Prometheus监听的数据,解析数据,获取数据库数据,将两种数据集根据对应关系进行整合。配置简单灵活,易于扩展。
- 一种基于数据相关性的电网数据质量提升方法-201911076316.8
- 卢媛;孙锡洲;范春磊;冷小洁;栾卫平;徐康;杨尉;穆芮;顾建伟;荣俊兴;王伟;李维娜;张睿;杨冉昕;赵慧群;杨禹太;陶方杰;李玉文;蔡海沧;李静 - 国网山东省电力公司威海供电公司;国家电网有限公司;南京航空航天大学
- 2019-11-06 - 2020-02-11 - G06F16/215
- 本发明提出一种基于数据相关性的电网数据质量提升方法,包括S1、获取数据流;S2、对数据进行预处理;S3、判断数据在时间上是否具有连续性,若是跳转至S4,若否跳转至S5;S4、判断该数据是否具有时间上的规律性,若是跳转至S6,若否跳转至S7;S5、判断该数据的缺失数据规模是否超过预设阈值,若是跳转至S8,若否跳转至S9;S6、利用时间相关性用之前相应的数据对缺失的数据进行补全;S7、利用缺失数据周边数据对其进行插值补全;S8、直接舍弃该组数据;S9、将缺失数据置零处理。上述基于数据相关性的电网数据质量提升方法能够提升电力物联网终端层数据感知设备获取数据的质量,从而保证数据服务的稳定、可控。
- 一种电能表用电信息整理方法、装置及可读存储介质-201911106207.6
- 杜杰;程瑛颖;谭时顺;肖冀;周全;张家铭;周峰;冯凌;江金洋;胡建明;常仕亮 - 国网重庆市电力公司电力科学研究院;国家电网有限公司
- 2019-11-13 - 2020-02-11 - G06F16/215
- 本发明公开了一种电能表用电信息整理方法、装置及可读存储介质,所述方法包括如下步骤:获取电能表的运行用电信息,并基于所述运行用电信息进行整合以获得用电信息库;基于所述用电信息库的特征指标对所述用电信息库的电能表数据进行清洗以完成整理。本发明方法通过基于用电信息库的特征指标对用电信息库的电能表数据进行清洗以完成整理,采用特征指标进行数据清洗,提高了电能表数据的可用性。
- 大数据处理优化方法、装置、终端及存储介质-201910834086.0
- 刘丽珍;李琳 - 深圳壹账通智能科技有限公司
- 2019-09-04 - 2020-02-07 - G06F16/215
- 本发明提供了一种大数据处理优化方法,所述方法包括:当接收到任务处理指令时,根据任务的属性及存储地址获取数据表单;启动主线程判断数据表单中的数据是否正确;当正确时,通过主线程逐行读取数据表单中的数据;当主线程读取了预设行数的数据时,对应启动一个子线程,并将预设行数的数据分发给所述子线程;控制所述子线程根据预设解析规则对所述主线程对应读取的所述预设行数的数据进行解析处理;当侦测到所有子线程完成解析处理后,通过所述主线程对每个子线程的解析结果进行汇总得到最终的解析结果。本发明还提供了一种大数据处理优化装置、终端及存储介质。本发明通过能够减少数据库中冗余的数量,提高处理器在解析数据时的处理能力。
- 交易小票数据合并方法-201910890511.8
- 唐明;向召元 - 北京数衍科技有限公司
- 2019-09-20 - 2020-02-07 - G06F16/215
- 本发明涉及交易小票数据合并方法,包括通用折中模型、酒店类模型和餐饮类模型共三种模型,其在获取小票数据和获取小票模型条件后对小票数据进行过滤和校验,判断小票流水号是否为有效流水号,当为有效流水号时,依据小票模型匹配相应的合并处理判断条件并将其与数据库中的相应交易数据进行对比,判断是否一致,依据不同小票的特点进行相应的合并处理,对没有有效流水号的酒店类小票和具有有效流水号的餐饮类小票,则依据这些行业的小票特点设定相应的合并处理条件和合并处理方式。本发明可以在交易小票数据进入存储系统之前对交易数据进行统一清洗,数据分析只用在清洗后的数据上进行,减少了数据分析对数据处理的复杂度。
- 一种多个排序类别组合方法-201910926653.5
- 季飞;杨晶生 - 上海麦克风文化传媒有限公司
- 2019-09-27 - 2020-02-07 - G06F16/215
- 本发明属于排序方法组合技术领域,尤其是涉及一种多个排序类别组合方法,包括以下步骤:采集业务数据,对业务数据进行分类和分类存储;根据预先设置的过滤规则分别对各类别下的业务数据进行过滤,并分别从各类别下过滤后的业务数据中提取专辑词组;对从同一业务数据中提取的专辑词组进行排序,并将同一业务数据的排序后的专辑词组进行组合,获得各类别下的各个业务数据的专辑词组组;统计专辑词组在所属类别下的出现次数,分别获取各类别下的专辑词组并进行分类展示。本发明支持多个排序方法组合成最终结果,并且对业务数据进行了过滤和分类,既满足了热度,又满足了新品的曝光需求,所得结果重复性小、可读性高。
- 基于商业智能系统开发的医院廉政风险防控系统-201910928335.2
- 杨志刚;胡江;杨紫瑄;刘清枝;邢思语;高培军;董睿超 - 杨志刚
- 2019-09-28 - 2020-02-07 - G06F16/215
- 本发明公开了基于商业智能系统开发的医院廉政风险防控系统,涉及医疗信息技术领域;本发明利用现有的商业智能系统将医院中各业务信息系统整合到一起,通过商业智能系统中的ETL工具将医院纪检重点监控的信息从在线运行的业务系统(HIS、RIS、LIS、HERP、PASS等)信息孤岛中的数据抽取到数据仓库中,将数据仓库里的数据进行数据挖掘,多维度的定义成指标项,再整合成需要展示的数据;最终利用帆软报表工具将需要展示的数据制作成各类图表通过信息展示平台直观的展示出来;该系统已经实际运行,运行以来,极大的减少了医院纪委日常的管理工作量,降低了数据被篡改的风险,可以对风险指标进行即时监控,防止不良事件与违规事件的发生。
- 客户趋势变化呈现方法、装置及计算机可读存储介质-201911002903.2
- 杨启正 - 招商局金融科技有限公司
- 2019-10-21 - 2020-02-07 - G06F16/215
- 本发明涉及大数据技术,揭露了一种客户趋势变化呈现方法,包括:从成员企业中获取原始客户的数据集,将所述原始客户的数据集进行数据清洗,得到标准客户数据集;对所述标准客户数据集进行预处理操作,得到目标客户数据集,并将所述目标客户数据集进行目标维度分析,得到所述目标客户数据集的目标维度分析值;将时间作为横坐标,以所述目标维度分析值作为纵坐标对所述原始客户建立客户趋势效果图,并输出所述客户趋势效果图。本发明还提出一种装置以及一种计算机可读存储介质。本发明实现了客户趋势变化的可视化呈现。
- 一种电网工程造价用信息管理方法-201911032946.5
- 陈贞辉 - 陈贞辉
- 2019-10-28 - 2020-02-07 - G06F16/215
- 本发明公开了一种电网工程造价用信息管理方法,具体涉及信息管理领域,包括信息载入模块,所述信息载入模块输出端连接有统一标准模块,所述统一标准模块输出端连接有中央处理模块,所述中央处理模块的输出端分别连接有原始数据模块、分类编码模块及信息显示模块,所述原始数据模块输出端连接有多级备份模块,所述中央处理模块的输入端连接有信息加密模块。本发明通过设置了分类编码模块,分类编码模块根据信息特征的不同,将采集到的数据信息筛选再加工、去伪存真、系统化数据化,并且根据其本身的内容信息进行合理分类,从而建立一批实用的数据库,更好的提高了信息质量,极大的方便了人们进行查看。
- 电动汽车的交易记录数据的校验方法、装置及系统-201611131872.7
- 潘鸣宇;孙舟;王伟贤;田贺平;李香龙 - 国网北京市电力公司;国家电网公司
- 2016-12-09 - 2020-02-07 - G06F16/215
- 本发明公开了一种电动汽车的交易记录数据的校验方法、装置及系统。其中,该方法包括:获取电动汽车的交易记录数据,其中,交易记录数据包括:充电站信息、运行充电桩信息和充电交易记录信息;根据交易记录数据,得到多个准确率;获取多个准确率中不满足预设条件的准确率对应的交易记录数据,得到交易异常数据。本发明解决了现有技术中的电动汽车的交易记录数据的校验方法将错误交易记录丢弃,导致交易记录不完善的技术问题。
- 基于多路分块的渐近式实体识别方法-201710122912.X
- 申德荣;孙琛琛;寇月;聂铁铮;于戈 - 东北大学
- 2017-03-03 - 2020-02-07 - G06F16/215
- 本发明是一种基于多路分块的渐近式实体识别方法,该方法为:多路分块生成相交的块,通过构建分块图消除块冗余,初始化块信用度和候选对信用度,将候选对按照信用度排序,并依次插入到候选队列;接着,迭代地进行以下三个步骤,(1)处理候选队列的候选对,(2)根据识别结果来更新一部分候选对的信用度,(3)根据更新的候选对的信用度来调整候选队列的顺序,并逐渐输出识别出的重复的数据对象对,不断重复这三步直到候选队列为空。采用本发明的渐近式实体识别方法,给定较短时间预算,可以识别出更多的重复的数据对象;通过动态地估计块的冗余度来更新候选对的信用度,实时地选择最可能匹配的候选对来进行识别,保证了高渐近性。
- 一种安全多方数值型记录匹配方法-201810067980.5
- 申德荣;韩姝敏;聂铁铮;寇月;于戈 - 东北大学
- 2018-01-24 - 2020-02-07 - G06F16/215
- 本发明公开一种安全有效的多方数值型记录匹配方法,属于数据质量和数据集成领域,具体方法为:各数据源间统一参数、生成密钥,接着,进行以下三个步骤,(1)利用类模运算加密各数据源中的数值型记录,(2)安全地查询出各数值型属性中的最大最小值,并优化地计算两者间的相似度作为各记录在该属性中的相似度,(3)通过各记录在各属性中的相似度,判断是否匹配成功。采用本发明的多方数值型记录匹配方法,可以在更短的时间内,更加安全有效地识别出重复的数据对象;通过证明若属性中最大最小值的相似度大于阈值,则任意两个属性值的相似度均大于阈值,只需安全快速地查找出各属性的最大最小值,即可判断各数值型记录是否匹配成功,保证了高效性。
- 数据标注方法、系统、计算机设备和存储介质-201910862671.1
- 王丹丹 - 苏宁云计算有限公司
- 2019-09-12 - 2020-02-04 - G06F16/215
- 本申请涉及一种数据标注方法、系统、计算机设备和存储介质。所述方法包括:获取第一标注数据,所述第一标注数据包括多个用户对同一待标注数据的多个标注数据;对获取到的所述第一标注数据进行聚类去噪,得到第二标注数据;采用当前条件随机场模型对所述第二标注数据进行预测,得到预测标注数据;根据所述预测标注数据对所述第一标注数据进行校验,得到正确标注数据,所述正确标注数据为与所述预测标注数据一致的所述第一标注数据。采用本方法能够提高数据标注的准确性和效率。
- 一种有源配电网故障特征的确定方法及系统-201910873221.2
- 董伟杰;刘科研;盛万兴;孟晓丽;贾东梨;何开元;胡丽娟;白牧可;叶学顺;赵伟;陈昶宇 - 中国电力科学研究院有限公司;国家电网有限公司;国网浙江省电力有限公司
- 2019-09-12 - 2020-02-04 - G06F16/215
- 本发明公开了一种有源配电网故障特征的确定方法及系统,确定方法包括:S1、基于获取的历史运行数据生成样本数据;S2、利用支持向量机模型‑递归特征消除算法对所述样本数据进行特征选择,提取故障特征;S3、将样本数据中故障特征对应的数据带入基于支持向量机构建的故障预测模型,确定所述故障预测模型的故障预测准确率,当所述故障预测准确率满足要求时,则将所述故障特征设为所述有源配电网故障特征,否则执行S1重新生成样本数据。本发明提供的故障特征确定方法提高了故障预测模型的预测效率,为配电网运行与检修人员提供参考,减轻检修人员的劳动强度。
- 基于海关大数据及谷歌搜索的获客方法和系统和设备-201910964665.7
- 肖碧祥 - 厦门谷道集团有限公司
- 2019-10-11 - 2020-02-04 - G06F16/215
- 本发明提供了一种基于海关大数据及谷歌搜索的获客方法、系统及装置。所述方法包括以下步骤:S1,根据客户产品获取多个关键词;S2,根据所述关键词在海关大数据中进行采购商进口产品AI比对处理,匹配出相关第一采购商公司名称;S3,根据所述第一采购商公司名称通过谷歌搜索,将将相关搜索结果集通自然语言分析及数据清洗,得到所述第一采购商公司名称所对应的联系人信息以及公司网址信息;S4,将所述第一采购商公司名称及其对应联系人信息以及公司网址信息进行交集推送给客户。
- 一种电力大数据的数据清洗方法-201911014952.8
- 钱斌;郑楷洪;周密;蔡梓文;肖勇 - 南方电网科学研究院有限责任公司;中国南方电网有限责任公司电网技术研究中心
- 2019-10-24 - 2020-02-04 - G06F16/215
- 本发明提供一种电力大数据的数据清洗方法,包括以下步骤:建立多个清洗模型,其中,多个清洗模型分别用于清洗不同异常类型的电力数据;接收待清洗电力数据,并将待清洗电力数据分别输入多个清洗模型进行并行处理;将处理得到的正常数据和异常数据进行存储,其中,异常数据按照对应的异常类型写入数据库。本发明能够对电力数据实时地进行自动清洗,准确率和效率均较高,并且能够保存异常数据以备需要时调用。
- 一种多源数据可视分析与展现方法及系统-201911023724.7
- 夏侯康;曾林华;王丽娟;冯景亮 - 广东机场白云信息科技有限公司
- 2019-10-25 - 2020-02-04 - G06F16/215
- 本发明公开了一种多源数据可视分析与展现方法及系统。多源数据可视分析与展现方法,包括:接收所有数据信息,对数据进行清洗,删除异常数据,得到数据样本集合;根据数据样本类型,选定聚类数K值的大小;将数据样本集合中的数据样本按最小距离原则分配到最邻近聚类;根据最临近聚类结果,重新计算K个聚类的中心,并作为新的聚类中心;判断是否收敛即判断聚类中心是否不再发生变化,若未收敛,重复直至收敛,得到最佳聚类结果;按照最佳聚类结果,为数据样本标上相应标签,与展示模板一一对应,进行展示。多源数据可视分析与展现系统,包括:数据样本处理模块;聚类数选定模块;临近聚类模块;聚类中心运算模块;最佳聚类运算模块;展示模块。
- 一种数据写入、读取方法及装置-201510272393.6
- 李宁 - 阿里巴巴集团控股有限公司
- 2015-05-25 - 2020-02-04 - G06F16/215
- 本申请实施例公开了一种数据写入、读取方法及装置,所述数据写入方法包括:接收携带有待写入数据及该待写入数据的第一标识的数据写入请求;基于第一数据库的当前待写入数据的写入规则,确定与所述第一标识对应的存储位置信息;确定包含所述第一标识及所述存储位置信息的第二标识,并建立所述待写入数据到所述第二标识的映射关系;依据所述存储位置信息进行路由,并按照所述路由的结果将所述待写入数据写入所述第一数据库。本申请实施例在数据库需要扩容时无需采取数据迁移方式,从而降低数据库维护的难度及成本。
- 一种云化架构下的记录数据剔重处理方法及系统-201710059113.2
- 严丽君 - 北京思特奇信息技术股份有限公司
- 2017-01-23 - 2020-02-04 - G06F16/215
- 本发明涉及一种云化架构下的记录数据剔重处理方法及系统,属于记录数据剔重处理领域,能对记录数据进行高速剔重处理和较长时间保存。本发明将收到的记录数据分为及时记录数据和迟到记录数据,将及时记录数据插入分布式内存数据库且提取关键信息建立索引数据,剔除重复记录后,输出为及时记录出口文件给下游使用,并将及时记录数据的索引数据导入HBASE数据库中;将迟到记录数据及对应的索引数据插入HBASE数据库,根据HBASE数据库中的索引数据剔除重复记录后,将非重复的迟到记录数据输出为迟到记录出口文件给下游使用。用于在数据接收时间跨度大的情况下对记录数据进行高速剔重处理。
- 性能特征降维方法及装置、电子设备及存储介质-201910875358.1
- 吴超勇 - 平安科技(深圳)有限公司
- 2019-09-17 - 2020-01-31 - G06F16/215
- 本发明涉及数据处理领域,提出一种性能特征降维方法、装置及计算机可读存储介质,该方法包括:在服务器集群中部署Agent包,所述Agent包采集服务器集群中集群服务器的性能指标,构成指标数据集;对所述指标数据集进行各维度的数据清洗获得有效指标数据;将所述有效指标数据存放于HDFS分布式文件系统中,对所述HDFS分布式文件系统中的有效指标数据进行性能特征提取,并将提取出的性能特征存储于HBase数据库;对所述HBase数据库中的性能特征进行基于PCA的特征降维。
- 数据质量检测方法及装置-201910927963.9
- 郑伟波;张毅然 - 北京明略软件系统有限公司
- 2019-09-27 - 2020-01-31 - G06F16/215
- 本发明提供了一种数据质量检测方法及装置,该方法包括:获取需进行数据质量检测的数据表;对所述数据表的每个字段采用对应的检核规则进行数据质量检测,以获得每个字段在每个维度下的数据质量检测值,其中,所述维度至少包括以下之一:一致性、及时性、准确性、唯一性;对每个字段在每个维度下的数据质量检测值进行加权计算获得所述数据表的数据质量检测值。在本发明中,从一致性、及时性、准确性和唯一性多个维度对数据质量进行质量检测,并且可从字段级、数据表级、数据源级以及数据库级逐级对数据质量进行评价,从而在很大程度上保证了接入数据的质量可靠性。
- 一种可还原脱敏的数据清洗及交换办法-201910930237.2
- 贺昌海;彭秀胜 - 武汉海昌信息技术有限公司
- 2019-09-29 - 2020-01-31 - G06F16/215
- 本发明提出了一种可还原脱敏的数据清洗及交换办法,对脱敏数据进行预处理,可以消除所有的“脏数据”,即冗余数据、异常数据和无用数据等;预处理的数据清洗部分可以处理缺失数据、检测和过滤异常值,移除重复数据;预处理的数据交换部分可以将不同来源的脱敏数据进行统一标识,进而可以对数据进行归一化处理,将其转换为有利于分析与挖掘的形式;本发明的方法安全复杂系数更高,使得算法模型的安全性更高,鲁棒性更强。有效地降低了敏感数据的危险系数,提高了敏感数据的安全性与破解难度系数,实现了敏感数据的脱敏,保护敏感数据安全与可靠。
- 一种基于微服务的一体化企业数据处理系统及方法-201910987142.4
- 刘建卫 - 天津锐网科技股份有限公司
- 2019-10-17 - 2020-01-31 - G06F16/215
- 本发明属于数据处理技术领域,公开了一种基于微服务的一体化企业数据处理系统及方法,数据源为系统提供数据支持;数据管道通过对应数据源的微服务组件将数据转化为以主题划分的消息集合;利用消息系统的分区功能对数据管道进行并发设置,实现数据的并行处理;微服务组件从数据管道中获取数据并进行数据的处理;处理后的数据存储至数据库、数仓中;通过可视化操作面板对企业数据进行图表化的展示、数据分析、数据导出;通过SDK API对接企业的业务系统,获取多维数据分析结果。本发明能够高效且低成本实现数据的异构整合和提高数据质量的加工、提供可视化操作,无须专业人员即可实现数据多维的分析和数据挖掘,找到潜在的数据价值。
- 专利分类