[发明专利]OTA网站的数据爬取方法及系统有效
申请号: | 201510507081.9 | 申请日: | 2015-08-18 |
公开(公告)号: | CN105069135B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 牟杰 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06F16/954 | 分类号: | G06F16/954;G06F16/958 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;王聪 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种OTA网站的数据爬取方法及系统。该数据爬取方法包括以下步骤:生成地区列表爬虫任务,包含对应于酒店搜索主页面的一初始爬取URL;执行地区列表爬虫任务以采集并保存地区数据,并生成酒店列表爬虫任务;执行酒店列表爬虫任务以采集并保存酒店数据,并生成价格列表爬虫任务;执行该价格列表爬虫任务,以采集并保存酒店的价格数据。本发明的OTA网站的数据爬取方法及系统,能够针对OTA网站的数据爬取有效提高数据采集的效率、完整性以及准确性,并降低资源开销。 | ||
搜索关键词: | 爬虫 网站 采集 保存 地区数据 价格数据 数据采集 资源开销 搜索 | ||
【主权项】:
1.一种OTA网站的数据爬取方法,其特征在于,包括以下步骤:S1、生成一地区列表爬虫任务,包含一初始爬取URL,该初始爬取URL对应于OTA网站的酒店搜索主页面;S2、执行该地区列表爬虫任务,以采集并保存地区数据,地区数据包括地区列表、地区ID,并根据执行中爬取得到的地区列表及地区ID生成酒店列表爬虫任务,该酒店列表爬虫任务设有预设的多组日期参数,每组日期参数分别包含一入店日期和一离店日期,其中地区包括区域、省份、城市、区县和/或商圈;S3、执行酒店列表爬虫任务,以采集并保存酒店数据,其中酒店数据包括在该多组日期参数的条件下可预订的酒店的房间以及酒店的基本信息,并根据执行中爬取得到的酒店的基本信息生成价格列表爬虫任务,其中酒店的基本信息包括酒店的名称和酒店ID;S4、执行该价格列表爬虫任务,以采集并保存酒店的价格数据;步骤S2中每生成一个酒店列表爬虫任务就将其放入一第一任务队列,步骤S3从该第一任务队列中提取酒店列表爬虫任务并执行,并将生成的价格列表爬虫任务放入一第二任务队列,步骤S4从该第二任务队列中提取价格列表爬虫任务并执行;地区列表爬虫、酒店列表爬虫、价格列表爬虫作为相互独立的爬虫模块进行工作,并且,根据目标OTA网站的静态及动态数据更新频次的不同,各爬虫模块相互独立地以不同频次生成任务进行数据的采集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510507081.9/,转载请声明来源钻瓜专利网。
- 上一篇:显示设备及其控制方法
- 下一篇:一种可卷的地毯式混合基质块