爬虫中使用Splash渲染js

  1. 在使用爬虫的时候,你是否遇到这样的困惑,要爬的网站(例如:https://news.qq.com)在浏览器上明明是可以看到源代码的,但是使用request或者script的爬取页面信息的时候只返回了页面的js代码,和html 头部标签,除此之外什么都没有。
  2. 这是因为好多页面都是用到了js渲染的。爬虫在运行的时候,并不会运行js.所以呀,咱们需要一个工具,返回该页面js渲染后的页面。这个工具就是Splash。
  3. Splash是一个javascript渲染服务。它是一个带有HTTP API的轻量级Web浏览器,使用Twisted和QT5在Python 3中实现。QT反应器用于使服务完全异步,允许通过QT主循环利用webkit并发。
  4. 这个工具真的牛呀,还支持各种的参数,是需要你传入要爬取页面url,就ok.其他参数可参考文档
  5. 请参考https://www.cnblogs.com/zhangxinqi/p/9279014.html 这里资料很全

猜你喜欢

转载自blog.csdn.net/weixin_42547619/article/details/89139806