爬虫抓取美团网上所有商家信息

原文地址:https://blog.csdn.net/u013243986/article/details/52223438

由于美团网对于IP访问次数有限制,当访问达到一定次数美团会增加延迟,访问次数再增加时就会有验证码,所以爬取时就需要注意控制访问的频率,以及访问一定次数后更换代理IP.

在爬取过程中我们可以先抓取所有的城市数据所有城市数据.


查看页面代码时发现很有规律,所以可以很容易抓取:



获取到城市的数据保存到txt文件中,接下来 我们就要先获取到分类信息:





获取这些数据到时候用来拼接成url链接,由于美团商家数据有些是用ajax加载的,虽然有办法处理 但是比较麻烦所以我觉定,分类获取区/县和商圈  这样就可以不用处理ajax加载的情况.



再拼接之前获取到的类型,这样我们就可以获取到一个商圈的一个小类,这是比较小的范围所以没有太多的商家,为了方便下次爬取数据,我先把商家的url保存下来,再进到每个商家里获取数据.



获取到所有的商家的url后,现在就到我们的最后一步了,但是要注意的是不同种类型的数据页面是不同的.比如酒店






所以对于不同种类型,需要写不同的解析函数.最后就是爬取的时候不应该追求快,美团限制很严,最好多线程  几秒请求一次.接下来就慢慢让它跑了.最后我跑了两个多星期才跑完全部.

分为四大类:



电影院 8195个   



酒店 211129 



美食大类  490928



生活大类  432803



总共  115万 条数据  


这里就只说明爬取的逻辑  不提供代码,有能力的同学自己写,没能力问别人怎么写.


猜你喜欢

转载自blog.csdn.net/tanga842428/article/details/80244163
今日推荐