1.依旧来自一篇很火的微信文章
https://mp.weixin.qq.com/s/F_lI639kXgEkwiovQjxOPw
《全国 41611 个景点,程序员用 Python 告诉你哪些地方最值得一游!》
虽然作者贴心的把代码和数据都给了我们,但是我还是想自己用python写一写
2.以上海市为例进行爬取,网址依旧是等差数列
http://xxx.com/XXX/XXX&page=a
a从1到100
3.对内容进行爬取
使用Xpath分别获取
景点名、景区等级、地点、门票价格、景区简述、销量以及热度,经纬度
原作者没有爬经纬度,是采用的高德地图api地理编码,其实仔细找找,网页内容中已经隐含了经纬度
4.进行试验,并存入数据库中
共得到景点数据1487条,效果如下
作者微信号w912917507