去哪儿网景点爬虫

1.依旧来自一篇很火的微信文章

https://mp.weixin.qq.com/s/F_lI639kXgEkwiovQjxOPw

《全国 41611 个景点,程序员用 Python 告诉你哪些地方最值得一游!》

虽然作者贴心的把代码和数据都给了我们,但是我还是想自己用python写一写

2.以上海市为例进行爬取,网址依旧是等差数列

http://xxx.com/XXX/XXX&page=a

a从1到100

3.对内容进行爬取

使用Xpath分别获取

景点名、景区等级、地点、门票价格、景区简述、销量以及热度,经纬度

原作者没有爬经纬度,是采用的高德地图api地理编码,其实仔细找找,网页内容中已经隐含了经纬度

4.进行试验,并存入数据库中

共得到景点数据1487条,效果如下

作者微信号w912917507 

猜你喜欢

转载自blog.csdn.net/qq_912917507/article/details/85108731