[发明专利]一种结构化信息检索方法和系统有效

专利信息
申请号: 201110351622.5 申请日: 2011-11-08
公开(公告)号: CN103092894A 公开(公告)日: 2013-05-08
发明(设计)人: 郑伟;林锋;金华兴;孙丽;刘清富 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 苏培华;赵娟
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 信息 检索 方法 系统
【说明书】:

技术领域

本申请涉及服务器集群的技术领域,特别是涉及一种结构化信息检索方法和系统,以及,一种建立结构化信息的索引的方法和系统。 

背景技术

电子商务(Electronic Commerce,EC)是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)或消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内电子商务迅速发展,各种B2B、C2C、B2C模式的电子商务平台(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。 

卖家在电子商务平台发布自己的产品,产生产品集合,所述产品具有一定的结构化信息;买家使用自定义的查询词在电子商务平台搜索自己关心或欲购买的产品。可以看出,电子商务检索的对象比较特殊,是卖家发布的产品结构化信息。另外,对于视频网站或者其他数据信息平台等,其上的数信息往往也是结构化的数据信息。 

随着电子商务应用的国际化趋势,需要设计越来越多的电子商务检索框架以适应发展,目前已有许多针对世界第一大语言汉语、第二大语言英语做出的电子商务检索框架,然而对于世界第三大语言西班牙语以及世界上的其他语言却不能直接套用在先的这种检索框架。主要原因在 于西班牙单词的编码不像英文字符的编码,英文字符编码用一个UTF-8(UNICODE的一种变长字符编码,又称万国码)字符就可以了,而西班牙单词编码需要多个UTF-8字符,并且,西班牙语中包含有词根和词干,与英语也完全不同。 

因此,目前需要本领域技术人员迫切解决的一个技术问题就是:实现基于西班牙语以及其他语言的结构化信息检索,并保证检索效率和系统的稳定性。 

发明内容

本申请的目的是提供一种结构化信息检索方法和系统,用以实现基于西班牙语以及其他语言的结构化信息检索,并保证检索效率和系统的稳定性。 

本申请还提供了一种建立结构化信息的索引的方法和系统,用以保证检索数据源的可靠性和稳定性。 

为了解决上述问题,本申请公开了一种结构化信息检索方法和系统,其中方法包括: 

预置结构化信息的索引,所述结构化信息包括多个域的信息,所述索引包括各个域的倒排索引,以及,结构化信息的序列化索引; 

接收用户提交的结构化信息查询请求,所述请求中包括查询关键词; 

对所述查询关键词进行预处理; 

将预处理后的查询关键词在所述各个域的倒排索引中进行匹配,获得满足预设匹配规则的候选结构化信息; 

提取所述候选结构化信息对应的结构化信息的序列化索引,并按照预设的计分规则根据所述结构化信息的序列化索引计算所述候选结构化信息的分值; 

根据所述候选结构化信息的分值选取作为查询结果的目标结构化信息。 

优选的是,所述预置结构化信息的索引的步骤,进一步包括: 

获取结构化信息,生成结构化信息库,其中,所述结构化信息包括多个域的信息; 

对所述结构化信息库中结构化信息中各个域的信息进行预处理; 

针对经预处理后的各个域的信息建立各个域的倒排索引; 

以及, 

针对经预处理后各个域的信息建立结构化信息的序列化索引。 

优选的是,所述结构化信息的序列化索引包括第一结构化信息序列化索引,以及,第二结构化信息序列化索引; 

所述针对预处理后各个域的信息建立结构化信息的序列化索引的子步骤,进一步包括: 

将预处理后各个域中的单词采用哈希函数转换为单词ID; 

将预处理后各个域中的数字信息,以及,所述单词ID进行序列化,保存为第一结构化信息序列化索引; 

以及, 

按照预置规则根据所述预处理后各个域的信息,计算对应结构化信息的特征值; 

将所述特征值保存为第二结构化信息序列化索引。 

优选的是,所述结构化信息为产品信息,所述多个域的信息包括:产品主题信息、产品关键词信息、产品属性信息、产品的概要描述信息和/或产品的详细描述信息;所述特征值包括结构化信息质量参数; 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110351622.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top