百度旅游、大众点评、驴妈妈、猫途鹰、携程关于评论的爬虫总结(附源码)

驴妈妈、猫途鹰和携程的评论爬虫其实是是AXAJ来进行翻页,详情请看我以前的一篇文章  爬取Ajax动态加载网页--以美团为例

但关于大众点评和百度旅游其实有注意事项的。百度旅游的页面是这样的

这里的45其实可以定位到某个评论页面,通过这种方法是可以爬取评论的,但要是爬取评论时间和评论打分需要在另一个界面。

还是通过AXAJ上面提到的方法,找到这个页面,对于乱码问题在爬取下来之后需要进行一次转码。代码如下:

#编码问题
#response.encoding = response.apparent_encoding

大众点评的反爬虫非常厉害,一旦某一个账号出现异常情况,直接就给你封啦,需要手动输入验证码才行,所以我们需要设IP池、cookie、请求头。详情请看我的另一篇文章  爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用

关于百度旅游、大众点评、驴妈妈、猫途鹰、携程代码我已上传到我github上,传送门

猜你喜欢

转载自blog.csdn.net/ssssdbucdbod/article/details/81272905