[发明专利]一种基于分布式数据库的全文搜索引擎有效

专利信息
申请号: 201710395591.0 申请日: 2017-05-31
公开(公告)号: CN107229714B 公开(公告)日: 2020-02-14
发明(设计)人: 江和慧;黄显洛 申请(专利权)人: 杭州宇为科技有限公司
主分类号: G06F16/93 分类号: G06F16/93;G06F16/27
代理公司: 33206 浙江翔隆专利事务所(普通合伙) 代理人: 郭关夫
地址: 310026 浙江省杭州市滨江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于分布式数据库的全文搜索引擎,包括索引和搜索,其中:索引是将文档和文档经过分词后的单词存入分布式数据库;搜索是根据用户的输入,返回包含用户输入以及经过排序的结果。本发明使用三张表(即单词表、文档表和语料库表),采用不同的均衡字段,单词表用单词id分表,文档表用文档id分表,语料库表用单词id分表,从而在查询的时候,按照单词进行查询,单词表按照单词id作为均衡字段,只需要到指定的某些节点上执行即可,其搜索效率大大地提高。使用了分布式数据库作为存储介质,可以利用其强大的缓存和sql计算功能,另外分布式数据库自身带有分布式功能,使其具有很强的扩展能力。
搜索关键词: 分布式数据库 单词 分表 文档表 语料库 文档 字段 全文搜索引擎 缓存 均衡 分布式功能 索引和搜索 存储介质 计算功能 扩展能力 搜索效率 查询 分词 索引 排序 搜索 返回
【主权项】:
1.一种基于分布式数据库的全文搜索引擎,其特征在于,包括索引和搜索,其中:索引包括下载文档、分析文档、以及将文档和文档经过分词后得到的单词存入分布式数据库;/n搜索是根据用户的输入,查询分布式数据库,返回包含用户输入的、按照得分进行排序的结果文档;/n文档id、文档地址、文档内容存入分布式数据库中对应节点的文档表中;/n对文档进行分词和分析,得到单词id、单词、单词所在的文档id以及单词的频率存入到分布式数据库中对应节点的单词表中;/n文档id以及单词id是通过将文档地址的hash值以及文档分词后的每个单词的hash值转换为整数得到,然后对文档id、单词id分别对分布式数据库内的节点数取余数,得到文档对应的节点id以及单词对应的节点id;/n搜索的基本步骤如下:对用户的输入进行分词,得到单词和单词之间的逻辑关系,针对每个单词到对应节点的单词表中搜索;/n根据单词表的文档id和单词逻辑关系计算结果文档id的集合,并且根据文档id提取文档内容;同时相同文档id内所有单词的频率逆文档频率之和构成文档的得分,文档按照得分从高到低排名;/n其中:单词的频率逆文档频率为单词的频率和语料库中单词的逆文档频率相乘结果;/n单词之间的逻辑关系是指与、或、非、及三种逻辑运算的任意组合。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州宇为科技有限公司,未经杭州宇为科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710395591.0/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于分布式数据库的全文搜索引擎-201710395591.0
  • 江和慧;黄显洛 - 杭州宇为科技有限公司
  • 2017-05-31 - 2020-02-14 - G06F16/93
  • 本发明提出一种基于分布式数据库的全文搜索引擎,包括索引和搜索,其中:索引是将文档和文档经过分词后的单词存入分布式数据库;搜索是根据用户的输入,返回包含用户输入以及经过排序的结果。本发明使用三张表(即单词表、文档表和语料库表),采用不同的均衡字段,单词表用单词id分表,文档表用文档id分表,语料库表用单词id分表,从而在查询的时候,按照单词进行查询,单词表按照单词id作为均衡字段,只需要到指定的某些节点上执行即可,其搜索效率大大地提高。使用了分布式数据库作为存储介质,可以利用其强大的缓存和sql计算功能,另外分布式数据库自身带有分布式功能,使其具有很强的扩展能力。
  • 基于电子文档的设备管理方法、装置、设备和存储介质-201910833212.0
  • 雷锡社;刘敏 - 江苏能电科技有限公司
  • 2019-09-04 - 2020-01-21 - G06F16/93
  • 本发明实施例公开了一种基于电子文档的设备管理方法,包括:获取电气图的图纸图像,根据图纸图像生成电子图纸;获取电气图对应的设备编码,建立设备编码和电子图纸的映射关系,并将映射关系存入到电气管理数据库;根据映射关系在电气管理数据库中的存储路径,生成携带有存储路径的查询标识;若接收到客户端发送的基于查询标识生成的查询请求,则获取查询标识中的存储路径,并将存储路径中存储的电子图纸和设备编码发送给客户端进行展示。该电气图管理方法能够实现对电气图的智能管理,从而大大提高了对电气图对应的设备的管理效率。此外,还提出了一种基于电子文档的设备管理装置、设备和存储介质。
  • 基于RFID保密文件全程管理系统及方法-201910913327.0
  • 兰荣 - 湖北用芯物联科技有限公司
  • 2019-09-25 - 2020-01-14 - G06F16/93
  • 本发明适用于文件保密管理技术领域。本发明公开一种基于RFID保密文件全程管理系统及方法,其中基于RFID保密文件全程管理系统包括,RFID标签,设于文件存储文件信息;RFID标签读取端,设于文件存放区域和使用区域周期性采集所述区域内文件上的RFID标签信息;文件转移装置,用于存放转移的文件,并实时读取发送转移文件RFID标签信息;保密管理服务器,接收RFID标签读取端和文件转移装置读取的RFID标签信息,对存放、使用和转移的文件RFID标签进行动态监控和管理。由于文件只能处在三种状态,通过该RFID保密文件全程管理系统对三种位置进行全程监控,只要文件不在三个位置则出发报警,从而实现全部监控,提高文件管理的可靠性和安全性,防止保密文件泄密。
  • 一种智能化装修管理系统-201910951942.0
  • 宁波 - 大连卓软科技有限公司
  • 2019-10-09 - 2019-12-31 - G06F16/93
  • 本发明涉及工程管理系统领域,更具体地涉及一种智能化装修管理系统。该管理系统包括设计分类管理、图纸管理、设计信息存储管理、合同信息管理和客户信息管理;所述设计分类管理用于将设计方案按照不同设计风格进行管理;所述图纸管理用于将设计好的电子图纸进行存档管理;所述设计信息存储管理用于存储通过设计图纸关联产生的数据信息;所述合同信息管理用于保存与客户签订的合同的电子版档案;所述客户信息管理用于对客户信息进行增加、修改、删除。该系统可以监控工程进度等信息,方便管理与统计,能有效提升家装企业的管理水平和市场竞争力,规范作业流程,提高客户满意度。
  • 一种用于电子文件管理装置-201910861456.X
  • 允尚姿;李鑫 - 邯郸学院
  • 2019-09-12 - 2019-12-13 - G06F16/93
  • 本发明涉及电子文件技术领域,尤其是一种用于电子文件管理装置,包括柜体,柜体内固定设有旋转电机,旋转电机的输出端等距均分固定设有若干储存模块,储存模块的一侧均设有用于读取或存储数据的USB接口,柜体的一侧设有开口,开口侧通过转轴转动连接设有柜门,柜体一侧设有电子锁,开口侧固定设有封板,封板上设有与USB接口相对应的数据读取槽,柜体一侧设有集控模块,集控模块包括身份识别模块,身份识别模块包括显示屏,显示屏内置CPU处理器,CPU处理器通过导线外接电源。本发明采用机械结构达到使用权限划分,能避免软件入侵,安全有效,具有实用性能。
  • 一种数据处理方法及装置-201610859973.X
  • 尹洋;王月杰 - 东软集团股份有限公司
  • 2016-09-28 - 2019-12-13 - G06F16/93
  • 本申请涉及一种数据处理方法及装置,所述方法包括:根据预先建立的数据模板建立文档结构描述XSD数据项模型;建立所述XSD数据项模型与交叉索引对照表的映射关系;所述交叉索引对照表保存了第一数据集与第二数据集的对应关系,用于实现第一数据集与第二数据集的格式转换;根据所述XSD数据项模型以及所述交叉索引对照表生成构建数据服务程序和解析数据服务程序,其中所述构建数据服务程序用于响应于调用所述构建数据服务程序构建数据,所述解析数据服务程序用于响应于调用所述构建数据服务程序解析数据。本申请可以降低了数据开发与交互成本,通用性强。
  • 检索装置以及检索方法-201610515574.1
  • 小泽开拓 - 柯尼卡美能达株式会社
  • 2016-07-01 - 2019-12-10 - G06F16/93
  • 提供一种检索装置以及检索方法。能够从在纸张上印刷的文档之中比以往更简便地检索关键词。图像形成装置(1)将文档与表示用于识别该文档的识别符的识别用图像一起印刷在纸张上。文档服务器(2)将该文档的电子数据与该识别符相对应地通过存储部件进行存储。若终端装置(35)从纸张拍摄识别用图像,用户将关键词输入至终端装置(35),则文档服务器(2)使用与所拍摄到的识别用图像所表示的识别符对应的电子数据,从文档之中检索关键词,终端装置(35)显示其结果。
  • 单据影像获取方法、装置、计算机设备和存储介质-201910707449.4
  • 陈林峰;李苏霞;陈红围 - 金蝶软件(中国)有限公司
  • 2019-08-01 - 2019-11-29 - G06F16/93
  • 本申请涉及一种单据影像获取方法、装置、计算机设备和存储介质。所述方法包括:获取影像任务,所述影像任务携带凭证信息,所述凭证信息包括凭证标识,将所述影像任务发送至线程池;通过所述线程池调用第一线程在档案记录表中查找是否存在所述凭证标识对应的档案记录;若未查找到所述凭证标识对应的档案记录,则通过所述线程池调用第二线程对所述凭证信息进行类型转换,得到所述凭证标识对应的所有原始单据信息;调用所述第二线程以及预设接口获取所有原始单据信息对应的影像;将所有原始单据信息对应的影像进行显示。采用本方法能够提高单据影像的获取效率。
  • 一种基于RFID技术搜索档案位置的方法-201910661062.X
  • 陈卫东;郑达垚;尤国治;郭杰峰;陈其 - 福州震旦计算机技术有限公司
  • 2019-07-22 - 2019-11-26 - G06F16/93
  • 本发明公开了一种基于RFID技术搜索档案位置的方法,其基于RFID扫描识别技术,先将RFID扫描器的初始扫描功率设定为最大值,此时扫描器所能感应到的距离最远,如果没有扫描到对应档案的RFID编码,则通过移动装置相应移动扫描器的位置,直至扫描到对应档案的RFID编码,即确定所需档案所处位置的一个区域,再在该区域内逐步减小扫描功率,即缩短搜索的距离范围,直至档案所处的位置与扫描器之间的距离达到一个设定的最小值如0.1米以内,搜索结束。相比传统人工大范围的逐一查找,本发明所提供的方法能快速定位档案的位置,从而实现快速查找的目的。
  • 索引的处理方法及装置-201610623529.8
  • 吕静 - 五八同城信息技术有限公司
  • 2016-07-28 - 2019-11-19 - G06F16/93
  • 本发明提供一种索引的处理方法及装置,通过将服务器的所有内核划分为两个内核集合,限制读线程运行于第一内核集合中的内核,并限制写线程运行于第二内核集合中的内核,避免了由于写线程频繁修改cache中的数据,而导致对于读线程来说cache中所存储的数据命中率低的问题,提高了读线程在需要读取第一索引时,从cache中读取第一索引的概率,从而提高了查询效率。
  • 一种用于档案咨询的数据存储管理系统-201910722828.0
  • 姜心泓;孟迎龙 - 合肥泓泉档案信息科技有限公司
  • 2019-08-06 - 2019-11-15 - G06F16/93
  • 本发明公开了一种用于档案咨询的数据存储管理系统,包括查询模块和数据存储模块,其中;所述查询模块包括模糊查询单元、高级查询单元和全文检索单元;所述数据存储模块包括信息录入单元、串口挂接单元、导入导出单元和回收站单元。有益效果:通过集成查询模块和数据存储模块,实现用户通过输入查询信息进行特征信息提取并调度数据存储模块阀值内数据信息进行展示,此外数据存储模块进行对预先存储的信息通过建立档案数据信息库并根据信息进行归类排序,实现用户通过特征信息以及搜索引擎结合的方式进行搜索查询,降低了管理成本,提高了检索方便性,而且提高档案数据信息的完整性、系统性和准确性,增强档案管理和利用的有效性。
  • 批文件处理方法、装置、设备和存储介质-201910771929.7
  • 屈东海 - 屈东海
  • 2019-08-21 - 2019-11-15 - G06F16/93
  • 本发明涉及一种批文件处理方法、装置、设备和存储介质,该方法包括:获取各个待处理文件,其中,待处理文件为添加了动态标识码且经过数据填充后的待标注文件;将各个待处理文件拆分为多个单页页面文件;针对每个待处理文件,识别组成待处理文件的各个单页页面文件上的动态标识码,并将动态标识码与预设数据库进行匹配,以确定待处理文件完整;按照预设排序需求对全部单页页面文件进行排序,以组成新文件,并建立新文件的存档索引。提高了批文件归档时的效率,降低了人力成本。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top