[发明专利]一种海量不确定XML数据存储方法在审

申请号：	201910644221.5	申请日：	2019-07-17
公开（公告）号：	CN110297946A	公开（公告）日：	2019-10-01
发明（设计）人：	刘健;龚蕾蕾;张蕾	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F16/81	分类号：	G06F16/81
代理公司：	北京科家知识产权代理事务所(普通合伙) 11427	代理人：	徐思波
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种海量不确定XML数据存储方法，包括以下步骤：A、抽取海量不确定XML数据；B、构建基于列数据库的海量不确定XML数据表示模型；C、实现基于不确定列数据库的海量不确定XML数据存储；本发明通过识别不确定XML文档中数据的多粒度不确定性，研究基于列数据库的不确定XML数据表示方法；本发明研究面向海量不确定XML数据的存储模型，包括研究模式(XMLDTD/Schema)已知情况下的海量不确定XML数据存储方法，以及模式未知情况下的海量不确定XML数据存储方法，本发明开发面向海量不确定XML数据的表示和映射存储方法，从而解决海量不确定XML数据难于管理的问题。
搜索关键词：	存储数据库表示模型不确定性存储模型映射存储构建研究抽取开发管理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种海量不确定XML数据存储方法,其特征在于：包括以下步骤：A、抽取海量不确定 XML 数据；B、构建基于列数据库的海量不确定 XML 数据表示模型；C、实现基于不确定列数据库的海量不确定 XML 数据存储。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910644221.5/，转载请声明来源钻瓜专利网。

上一篇：基于XBRL的数据信息处理方法及系统
下一篇：一种数据调用方法、装置及电子设备

同类专利

一种基于关键字的XML检索排序处理系统及方法-201710770141.5
发明人：解凯;叶宇姍;曾庆涛;河南南 -专利权人：北京印刷学院
申请日： 2017-08-31 - 公布日： 2019-11-08 - 主分类号： G06F16/81
摘要：本发明涉及一种基于关键字的XML检索排序处理系统及方法，由6个模块组成：基本语义节点筛选模块，文档语义分割模块，关键字检索模块，单元结构分析模块，语义加权模块以及结果筛选模块。本发明克服了原本基于SLCA结构关键字查询方法返回结果粒度不合适，易返回粒度过大的不相关结果和单关键字返回结果效果不好的缺点，可以更加准确地返回粒度适中，相对独立，比较符合用户意图的语义片段。对XML结果进行排序使用户可以选择返回固定个数的查询结果，进一步提高了查询的准确率，较好地满足了用户的偏好。

一种基于脚本语言的XML配置数据维护方法及系统-201610160164.X
发明人：韩永华 -专利权人：上海斐讯数据通信技术有限公司
申请日： 2016-03-21 - 公布日： 2019-10-22 - 主分类号： G06F16/81
摘要：本发明公开了一种基于脚本语言的XML配置数据维护方法及系统，该方法包括：对配置数据建立一配置数据模板表，以保存配置数据中节点和参数的属性；利用脚本对配置数据建立配置数据全局表，实现节点与参数的默认数据的配置；下发配置工单，获取配置的节点或参数，查找配置数据模板表，获得所配置的节点或参数的属性，根据获得的属性进行相应配置操作，本发明通过利用脚本语言实现了CWMP中XML的管理和配置，简化了数据的管理方式，通过脚本化的操作方便了系统的升级和维护。

一种海量不确定XML数据存储方法-201910644221.5
发明人：刘健;龚蕾蕾;张蕾 -专利权人：哈尔滨工业大学
申请日： 2019-07-17 - 公布日： 2019-10-01 - 主分类号： G06F16/81
摘要：本发明公开了一种海量不确定XML数据存储方法，包括以下步骤：A、抽取海量不确定XML数据；B、构建基于列数据库的海量不确定XML数据表示模型；C、实现基于不确定列数据库的海量不确定XML数据存储；本发明通过识别不确定XML文档中数据的多粒度不确定性，研究基于列数据库的不确定XML数据表示方法；本发明研究面向海量不确定XML数据的存储模型，包括研究模式(XMLDTD/Schema)已知情况下的海量不确定XML数据存储方法，以及模式未知情况下的海量不确定XML数据存储方法，本发明开发面向海量不确定XML数据的表示和映射存储方法，从而解决海量不确定XML数据难于管理的问题。

一种基于xml操作word文档的方法及系统-201910543393.3
发明人：杨剑锋 -专利权人：福建南威软件有限公司
申请日： 2019-06-21 - 公布日： 2019-09-20 - 主分类号： G06F16/81
摘要：本发明涉及一种基于xml操作word文档的方法及系统，在服务器平台部署JDK7.0、中间件、指定格式的待赋值word文件以及书签，通过IO流对word文件进行转换，通过dom4j按照特殊格式查找出对应书签的文本，对书签对应的文本进行修改或者赋值。Word文件IO流操作传统方式是以特殊字符为占位符,其值只能一次性赋值,第二次占位符就会丢失,本发明可以多次赋值不受特殊占位符影响,可以提供更多样化的客户需求。

基于XPATH的XML配置文件恢复方法及其系统-201610843693.X
发明人：倪晋华;俞大风 -专利权人：安科讯（福建）科技有限公司
申请日： 2016-09-23 - 公布日： 2019-09-17 - 主分类号： G06F16/81
摘要：本发明提供一种基于XPATH的XML配置文件恢复方法及其系统，方法包括：遍历随版本发布的第一配置文件中所有的叶子节点，获取所有的叶子节点的绝对路径；依据所述绝对路径，利用XPATH在第二配置文件中查询是否存在对应的叶子节点，所述第二配置文件为保存在可存储介质上的配置文件；若存在，将第二配置文件中所述叶子节点的值写入所述第一配置文件中对应叶子节点。本发明实现在系统重启配置时，保存在可存储介质上的用户配置文件能够被准确、快速地恢复到随版本发布的运行配置文件中；确保基于XML配置文件的应用程序能够正常运行。

一种半结构化数据快速联合处理的方法及系统-201510080610.1
发明人：鲁瑞;侯建卫;付长冬 -专利权人：中国移动通信集团山西有限公司
申请日： 2015-02-13 - 公布日： 2019-09-06 - 主分类号： G06F16/81
摘要：本发明公开了一种半结构化数据快速联合处理的方法及系统，其中，所述方法包括：从待处理数据中提取半结构化数据，将所述半结构化数据区分为用结构化数据+非结构化数据模式描述的数据；对用所述结构化数据+非结构化数据模式描述的数据采用MPP+HADOOP混合体系进行处理。

一种将app内容进行索引化和可搜索化的方法-201810160727.4
发明人：胡森;周喆吾;段进伟 -专利权人：北京展心展力信息科技有限公司
申请日： 2018-02-27 - 公布日： 2019-09-03 - 主分类号： G06F16/81
摘要：本发明提出一种将app内容进行索引化和可搜索化的方法，引入一个虚拟机沙箱系统，在这里，我们的爬虫程序，即沙箱蜘蛛Sandbox Spider技术，它用于扫描全部的在沙箱内运行的组件，以识别每个组件是否为一项图形界面的一部分。如果答案为“是”，那么蜘蛛会定位并解析该布局描述文件或者图形用户界面代码，接着提取内容，上传至索引服务器，然后进一步归档内容，拆分单词和短语等。减少了移动app的下载和安装工作量，从而节约时间，提高效率。

一种报文配置及输出方法及装置-201611027224.7
发明人：王同庆 -专利权人：中国银行股份有限公司
申请日： 2016-11-18 - 公布日： 2019-08-30 - 主分类号： G06F16/81
摘要：本发明提供了一种报文配置及输出方法及装置。所述方法包括：使用XML文件进行报文配置，定义每个报文数据项的长度和先后顺序；根据所述报文数据项的长度和先后顺序输出报文。本发明实施例的报文配置及输出方法及装置，摒弃了现有的System.arraycopy方式，减少了开发人员工作量，且支持多种报文，应用广泛，提高了开发效率；另外，本发明摒弃了读位的方法，使用顺序输出报文的方法，能够快速定位出错位置，减少错误查找时间，减少报文测试时间，提高报文测试效率。

一种不同域名格式的大文件数据差异性分析方法-201610201039.9
发明人：李晓东;李洪涛;卫俊凯;周贵卿;李志平 -专利权人：中国互联网络信息中心
申请日： 2016-03-31 - 公布日： 2019-08-20 - 主分类号： G06F16/81
摘要：本发明公开了一种不同域名格式的大文件数据差异性分析方法。本方法为：1)将escrow文件中的记录导入数据库，同时在内存中生成索引，并为每条索引配置一个标签；2)遍历zone的每条domain记录，查询该索引中是否存在当前记录对应的索引信息，若不存在，则将该记录写入差异报告A；若存在，则从数据库中提取出该记录的各字段信息，并与zone文件中对应的domain信息比较，将存在差异的字段写入差异报告B，同时标记索引中对应标签为true；3)遍历该索引，查找该索引中标签为false的数据，然后提取对应的escrow数据写入差异报告C中。本发明减少了IO交互和数据库遍历的时间消耗，优化了时间复杂度。

基于ePub文件的试读方法和基于ePub文件的试读系统-201510191255.5
发明人：李辰 -专利权人：北京大学;北大方正集团有限公司;北京北大方正电子有限公司
申请日： 2015-04-21 - 公布日： 2019-08-06 - 主分类号： G06F16/81
摘要：本发明提出了一种基于ePub文件的试读方法和一种基于ePub文件的试读系统，其中，所述方法包括：获取ePub文件的整体目录索引文件；解析所述整体目录索引文件，以获取所述整体目录索引文件中的每个子目录索引文件对应的HTML文件内容的第一文件大小；根据目标比例确定试读ePub文件的第二文件大小；根据所述第一文件大小和所述第二文件大小确定所述试读ePub文件的试读目录结构，以获取所述试读ePub文件。通过本发明的技术方案，通过将ePub文件的整体目录索引文件解析成多个子目录索引文件，从而根据每个子目录索引文件对应的HTML文件内容的大小和目标比例所确定的试读ePub文件的大小，可以有效且快速地获取试读ePub文件，进而实现了对ePub文件进行批量快速地处理。

一种利用简单路径特征优化树状结构数据的方法及系统-201710178692.2
发明人：陈世敏;王智义 -专利权人：中国科学院计算技术研究所
申请日： 2017-03-23 - 公布日： 2019-06-18 - 主分类号： G06F16/81
摘要：本发明提出利用简单路径特征优化的树状结构数据处理方法及系统，该方法包括步骤1，设置简单路径，其中所述简单路径为在数据定义的语法树中，从根节点到叶子节点最多只存在一个多值的域的路径；步骤2，通过在扁平行式结构数据中存储所述的简单路径上叶子节点的信息，获取路径上完整的嵌套结构；步骤3，在对列式数据查询过程中，需要将其组装为行式结构数据，通过简单路径的优化可以简化数据中的层次关系：仅通过叶子节点既可表示从根节点到叶子节点的路径而忽略路径中所有的非叶子节点。本发明中通过分析常见的半结构化数据，定义简单路径的概念，利用简单路径对STEED的数据存储、列式数据组装和查询过程进行了优化，提高了相关操作和功能的效率。

一种树结构建立方法及装置-201510125072.3
发明人：陈志宝;黄承权 -专利权人：广州金山移动科技有限公司;珠海金山办公软件有限公司;北京金山办公软件股份有限公司
申请日： 2015-03-20 - 公布日： 2019-05-31 - 主分类号： G06F16/81
摘要：本发明实施例公开了一种树结构建立方法及装置，解决了PPT中无论是大纲视图还是普通视图，都没有一个章节树结构来告诉用户PPT文档的章节结构，若在左侧小缩略图列表基础上加上树结构视图，可以方便文档结构化展示，当PPT页数的数量过多时，而导致的在PPT管理及制作上非常便捷的操作，使得在后续使用时，及产生的效率低的技术问题。本发明实施例的树结构建立方法包括：读取当前打开的演示文稿对应的XML文件；根据XML文件提取演示文稿对应的结构数据；提取在结构数据中的节点信息，并将节点按照与其相对应的级别进行层级设置；根据层级进行结构归属，生成相对应的结构视图。

一种解析XML文档的方法及系统-201811580024.3
发明人：高准枚 -专利权人：郑州云海信息技术有限公司
申请日： 2018-12-24 - 公布日： 2019-05-10 - 主分类号： G06F16/81
摘要：本发明实施例公开了一种解析XML文档的方法及系统，方法包括获取要查找的XML文档的关键字和XML文档的路径；查找关键字所在的起始行位置和终止行的位置；判断起始行位置和终止行位置是否重合，若重合，输出关键字所在行的字段，若不重合，输出起始行的字段以及起始行与终止行之间各行的字段。本发明通过分析XML文档中关键字所在的起始行和终止行的位置，输出不同的字段，实现XML的解析，整个过程操作简单，不需要借助第三方工具即可实现XML文档的解析，提高工作效率。

一种大数据分析模型的标记与解释系统及方法-201610192742.8
发明人：郝玉洁;陶昌云;王珂;李年华 -专利权人：电子科技大学
申请日： 2016-03-30 - 公布日： 2019-04-26 - 主分类号： G06F16/81
摘要：本发明公开了一种大数据分析模型的标记与解释系统及方法，系统包括模型标记单元，模型管理单元、模型解释单元、模型编译单元和用户单元；所述模型标记单元用于对模型元数据的标记，所述模型管理单元用于对模型进行审批、元数据管理和索引，所述模型解释单元用于对用户作业进行解析和DAG关系图转化，所述模型编译单元用于模型依赖关系的构建、依赖库的下载和联合编译，所述用户单元用于对用户身份识别，用户对模型的设计实现、管理、提交。本发明解决了大数据分析过程中对模型的标记和解释，方便了用户创建作业时的操作，加快了模型的调用和解释过程。

一种基于XML的古籍结构化整理方法-201610563832.3
发明人：葛强;胡永权;张乐;靳宇峰;何新;张帅民;徐浩;丁元 -专利权人：河南大学
申请日： 2016-07-18 - 公布日： 2019-04-16 - 主分类号： G06F16/81
摘要：本发明公开了一种基于XML的古籍结构化整理方法，包括以下步骤：A、将多本古籍分页扫描，图片上的各个段落制成对应条目；B、依据古籍整理任务的目录结构制定多个结构化检索词；C、将各个条目分别放入其满足的结构化检索词对应的目标条目集合中；D、将目标条目集合中的各个条目按照成书年代排序并存储为XML文件，XML文件和其对应的图片集合形成目标数据资源；E、对目标条目集合中的各个条目进行纬目分类和自动排序，相同纬目下的条目依据成书年代排序；F、编者根据古籍整理的任务内容对XML文件中的条目进行编辑整理，最后导出至出版系统排版印刷成书。本发明实现了古籍文献整理、撰写与出版的一体化过程，大大提高了古籍整理工作效率。

无埋点数据采集方法、装置、计算机设备以及存储介质-201811454600.X
发明人：徐晓超;李军;冯剑;吴怀保;高蓓 -专利权人：深圳市小牛普惠投资管理有限公司
申请日： 2018-11-30 - 公布日： 2019-04-05 - 主分类号： G06F16/81
摘要：本发明实施例公开了一种无埋点数据采集方法、装置、计算机设备以及存储介质，其中，所述方法包括：监测目标应用上的用户行为事件；若监测到所述用户行为事件发生数据交互，采集所述用户行为事件上所生成的用户行为数据；根据预设数据规则对所述用户行为数据进行封装；获取封装后的用户行为数据，并将所述用户行为数据添加至阻塞队列；若接收到发送指令，将所述阻塞队列中的所述用户行为数据发送至数据接收方。本发明能够实现数据无侵入式采集，以及提高数据采集效率和解决开发工作量繁琐的技术问题。

XBRL分类标准自定义链接库的解析方法-201510616230.5
发明人：马越;居邦;许岩龙;唐军 -专利权人：四川长虹电器股份有限公司
申请日： 2015-09-24 - 公布日： 2019-03-26 - 主分类号： G06F16/81
摘要：本发明涉及可扩展商业报告语言技术。为解决现有XBRL引擎中对于分类标准自定义的链接库无法解析并展示的问题，提供了一种XBRL分类标准自定义链接库的解析方法，其技术方案可概括为：读取模式文件并解析到文件中的元素时，根据其属性选择将其置于扩展链接库或定位器或弧的元素列表中，当读取到链接库层级或定位器或弧的元素名时，若元素名并非为常规元素名则在对应元素列表中匹配，成功则将此元素名表示到自定义链接库或定位器或弧的扩展名，读取到扩展链接库、扩展定位器或者扩展弧，通过对模式文件中获取的其属性进行判别，分别获得其属性或子元素，从而解析。其有益效果是，方便用户，适于XBRL引擎解析分类标准自定义的链接库。

一种产品BOM差异分析与同步更新方法-201410232496.5
发明人：刘元新;彭慧;姜丽苹;张晓煜 -专利权人：中国科学院沈阳自动化研究所
申请日： 2014-05-28 - 公布日： 2019-03-19 - 主分类号： G06F16/81
摘要：本发明涉及一种产品BOM差异分析与同步更新方法，包括以下步骤：将不同数据源的BOM数据按照数据结构及层次关系生成相应的XML格式的BOM数据文件，并根据BOM数据文件生成哈希值树；对不同数据源的哈希值树的相对应结点进行比较，得出不同数据源BOM数据的差异点；根据BOM数据差异点类型及内容生成BOM数据的同步脚本，在需进行同步的数据源中通过执行同步脚本实现BOM数据的同步。本发明将企业信息系统中的产品BOM数据信息以XML文件形式进行处理，方便制定标准化的文件格式，便于体现产品BOM数据层次关系，而且XML文件易于应用系统解析与查询，可以直观的显示BOM数据间的差异。

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种海量不确定XML数据存储方法在审

专利文献下载