数据分析之去哪儿酒店 - 代码天地

数据分析之去哪儿酒店

服务端 2018-08-14 10:19:09 阅读次数: 0

之前发了一篇爬取去哪儿自由行的数据后，有一个读者在后台问到我怎么爬取去哪儿酒店的数据。当时简单看了下,觉得难度不大。就跟他讲了下思路。因为当时爬取自由行的网站选取的是移动端。为了能让读者学习到更多的知识，我们今天选取了去哪儿的电脑端来进行爬取。其实爬虫的思路都是一样的，无非就是先获取网页信息，然后再解析。解析之后就提取所要的数据。如果要对数据要进一步的分析的话。还需要对数据进行清洗，建模等一系列操作。今天作者给大家带来的就是去哪儿酒店酒店信息的获取，并进行数据清洗，分析。

1. 准备工作

本篇案例主要涉及到的Python的库有Selenium，pymongo库，以及解析库pyquery。清洗库pandas库和matplotlib库，并且安装好了Chrome浏览器和配置好了ChromeDriver。

2. 页面分析

首先访问去哪儿网址:"https://www.qunar.com/"，然后选择酒店这一栏。我们可以看到目前的链接为:"http://hotel.qunar.com/"。这个就是我们要访问的域名。如下图所示。

我们点击页面的目的地输入城市，然后点击搜索即可出现酒店列表，即我们可以用Selenium来控制浏览器输入城市名，然后点击。我们进入到酒店页面。如下图所示。

如果有更多的业务需求，我们可以选择菜单上的酒店类型,实现思路一样。在此我们默认为"酒店搜索"这一栏。并且选择按评分来筛选酒店。我们随机选择一个酒店名，右击打开开发者工具。如下图所示。

我们经过分析可知每个酒店的内容是在id为"jxContentPanel"中，并且在其下class为"b_result_box js_list_block"中可以看到每个酒店的详细信息。如下图所示。

我们就可以pyquery解析库来解析网页获取我们所需要的信息了,到此网页的解析已经完成。下面我们用代码来实现整个抓取的过程。

3. 实战演练

3.1 获取目的地城市列表

这里我们可以使用我们之前抓取自由行数据时抓取到的目的地城市列表，实现如下：

3.2 获取去哪儿页面详情页

我们已经有目的地城市列表了，所以我们在在访问去哪儿网址时，只用输入所获得的城市就可以进行搜索了。然后就可以获取酒店页面了。并且我们要获得多个页面的酒店。所以也要实现翻页的方法。实现如下：

3.3解析酒店列表

我们已经获得了酒店列表页面，接下来用解析库pyquery进行解析，就可以获取我们想要的数据了。实现如下:

3.4保存到数据库和csv文件

3.5运行代码

3.6结果查看

MongoDB数据库结果:

CSV文件：

3.7数据清洗

利用pandas库和matplotlib库进行数据清洗和简单分析,实现如下:

结果如下：

3.8 项目代码

https://github.com/NGUWQ/Python3Spider/tree/master/dataanalysis

4. 结语

此项目主要功能是爬取去哪儿酒店,如果你要爬取去哪儿的其它业务，思路也是一样的。

If it works for you.Please,star.

如果你对爬虫，数据分析，算法感兴趣。请关注我的微信公众号:TWcoding。我们一起学习。

猜你喜欢

转载自juejin.im/post/5b6bcd155188257f0b584e1d

数据分析之去哪儿酒店

2023酒店数据-去哪儿

去哪儿酒店数据下载

跟我学大数据分析之四：“钱”去哪儿了？

去哪儿爬虫加数据分析可视化

去哪儿网酒店爬虫

Kaggle数据分析入门之--酒店预订需求

Alluxio 帮助去哪儿网酒店数据业务最高提速300x

去哪儿网上海景点数据爬虫分析

爬虫数据分析携程酒店：pandas结合matplotlib

Smartbi酒店经营管理数据分析漫谈

去哪儿VS携程产品分析

去哪儿网笔试题分析

优化实战第44期 - 数据分析之去重、参数序列化

去哪儿数据VS美团数据

去哪儿

去哪儿网数据爬取

去哪儿首页-ajax获取数据

数据分析之pandas

数据分析之matplotlib

数据分析之numpy

数据分析之python

数据分析之期权

数据分析之anacod

数据分析之sklearn

Python之数据分析

酒店评论数据分析和挖掘-展现数据分析全流程（一）报告展示篇

MapReduce数据分析（9）数据去重

python数据分析数据的去重,缺失值的处理

python数据分析与算法之六数据分析

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)