爬取Ajax动态加载网页--以美团为例

在实训期间我们需要爬取美团、携程等网页关于某旅游景区的评论,但是我们发现我无法通过以前的方法爬取他们,加载相应的URL都无法加载评论,所以我就想这是不是通过其他方法加载网页。网上查了一下,发现这种加载评论的方式是Ajax动态加载网页,每次我点下一页它的URL都不会动,但它的评论还是加载出来啦。

那么怎么爬取这种网页,其实原理很简单,就可以简单理解为在不想刷新整个页面,所以单纯的将某一部分来进行刷新。而刷新的页面对应的另一个网页,我们只要爬取另一个网页就行,我们现在所需要的就是找到这个我们需要爬取的网页。

以美团为例,我们来寻找这个网页:


这是美团对天安门广场的页面,我们看到下面的评论,发现我们无法加载评论的页数也URL不变,我们来检查网页代码,我是Chrome浏览器,所以按f12即可。

我们打开Network,我们发现下面一个数据没有,我们点击XHR,(有时也可能在js里,如马蜂窝网站 )然后点击下一页,我们发现多了几行数据


双击刚才所出来的这一行,这个就是我们需要爬取的数据,也是评论的网页。

我们也可以通过查看Headers来获取网站,查看General上的request url来获取链接,然后到form  Data下面去点击view source上复制这段,把上面requests url和view source用?连接就可以。



猜你喜欢

转载自blog.csdn.net/ssssdbucdbod/article/details/80992603