[发明专利]一种社保大数据分布式预处理方法及系统在审

专利信息
申请号: 201610451305.3 申请日: 2016-06-20
公开(公告)号: CN106126601A 公开(公告)日: 2016-11-16
发明(设计)人: 张星明;陈伟健;林育蓓;吴世豪 申请(专利权)人: 华南理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 罗观祥
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种社保大数据分布式预处理方法及系统,主要技术方案是将数据预处理流程定义为包含多个预处理操作节点的数据预处理作业,预处理操作节点在独立的线程中并行执行;对复杂度高的数据操作节点分配多个执行线程,并以分布式云服务器集群的方式并行执行数据预处理作业;分布式预处理系统的数据装载按列方式写入分布式文件系统,同时利用NoSQL对数据写入操作进行缓存优化。本发明充分发挥了预处理云服务器的处理性能,克服了单一服务器的性能瓶颈,也避免了服务器与HDFS数据节点之间多余的数据传输,同时提高数据装载到HDFS的效率,从而提高大数据预处理的效率。
搜索关键词: 一种 社保 数据 分布式 预处理 方法 系统
【主权项】:
一种社保大数据分布式预处理方法,其特征在于:首先,将数据预处理的各种操作定义为数据操作节点,将一套数据预处理流程定义为数据预处理作业,数据预处理作业由数据操作节点构成;然后对给定的数据预处理作业,为其中的每个数据操作节点分配一个或多个线程,分配多个线程的数据操作节点称为并行数据操作节点,启动预处理作业即启动多个线程同时工作,而仅包含单线程数据操作节点的预处理流程中,数据流按单泳道传递;对复杂度高的数据操作节点分配多个执行线程,并以分布式云服务器集群的方式并行执行数据预处理作业,集群由云平台上搭建的预处理服务器组成,包括一台主服务器和多台子服务器,系统将预处理作业中分配多线程的数据操作节点抽取出来,构成子预处理作业,分配给子服务器,剩余部分则交由主服务器处理,集群任务调度器采用MapReduce并行模式,按照设定的分区规则对主服务器上操作节点的数据集进行均匀划分,传输给子服务器进行处理,子服务器完成数据处理操作后发送给主服务器进行合并,最终保持数据的一致性;所述数据处理流程按如下具体步骤执行:1)云平台为云服务器分配所需资源,并初始化预处理云服务器集群;2)云平台初始化预处理集群任务调度器,调度器负责管理数据操作节点活动、监听操作节点的执行,以及指导数据集的划分和分发任务;3)云服务器加载数据操作节点的元数据,元数据定义了数据操作节点的名称和操作数据集的字段信息,包括字段名称、数据类型、数据精度,云服务器对加载的数据操作节点按先后顺序排列;4)云服务器对各数据操作节点按以下步骤执行:4.1)云服务器获取当前数据操作节点,根据元数据获取操作节点名称以及操作的数据集信息;判断数据操作节点是否为并行数据操作节点,若不是,执行步骤4.2),若是,执行步骤4.3);4.2)主服务器从上一操作节点获取数据集,并负责执行当前节点定义的数据操作任务;数据操作任务完成后,执行步骤4.4);4.3)主服务器从上一操作节点获取数据集,由集群任务调度器按照设定的分区规则对数据集进行均匀划分,传输给子服务器并行执行数据操作任务;子服务器完成数据处理操作后发送给主服务器进行合并,数据操作任务完成后,执行步骤4.4);4.4)判断有无后续数据操作节点,若有,则执行步骤4.1)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610451305.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top