关于爬虫的一些记录

普通的文本型爬虫就不说了，这里主要说一下在爬取有JS脚本和验证码的一些内容时，遇到的坑。

操作系统的选择：

由于爬虫、资讯分析AI、Web接口都部属在CentOS上，且系统部署的最优选择还是centos。

爬虫方面，文本型爬虫是基础，模拟浏览器也是必须的。目前模拟浏览器就三样，Firefox、Chrome、PhantomJS，使用模拟浏览器的好处是可以轻易应付web页面内的JS脚本，并且用Firefox下面的selenium插件，还可以轻松定位页面元素，比Chrome开发者模式和Fiddler更方便。

Centos下使用Selenium调用Chromedriver会报错

unknown error: DevToolsActivePort file doesn't exist

网上解决方案：

# options = Options()
# options.add_argument('--no-sandbox')
# options.add_argument('--disable-dev-shm-usage')
# options.add_argument('--disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug
# options.add_argument('--headless') # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加
browser = webdriver.PhantomJS() # 无界PhantomJS浏览器
# browser = webdriver.Chrome(chrome_options=options) # 无界谷歌浏览器

尝试过用option仍无法解决，如果一定要在CentOS下面跑的话，我选择放弃使用Chrome，然后把selenium降级到3.8.0版本。如果可以在Windows下面跑的话，就随意了。

Centos下使用Selenium调用PhantomJS可以实现爬取，新版本的Selenium会报一个警告出来，不影响使用（但windows下无法使用新版本Selenium支持PhantomJS），降级到3.8.0版本最好。

验证码的问题：

扫描二维码关注公众号，回复： 6546272 查看本文章

比较普通的数字、英文或汉字验证码，用打码平台解决就好了。自己去做图像识别的话，性价比太低，当然如果有兴趣并且时间充裕的，自己捣鼓一下验证码识别也无伤大雅。火狐和谷歌的无头版浏览器以及PhantomJS无界浏览器，刚好有截图函数，配合元素定位和PIL的图片切割，可以准确截取验证码图片，调用打码平台的api识别即可，还可以充当需要输入验证码的模拟输入界面，识别好验证码后，用这几个浏览器的click和send_keys方法即可越过验证码。（复杂的、需要交互的验证码就直接放弃了）

包、库和插件的安装：

PhantomJS:http://phantomjs.org/download.html（windows和linux）

Chromedriver:http://chromedriver.storage.googleapis.com/index.html（驱动下载）

https://blog.csdn.net/cz9025/article/details/70160273（驱动和浏览器版本对照）

Firefox建议只装浏览器和selenium插件，用来做元素定位和脚本录制。火狐无头浏览器的速度，比谷歌和PhantomJS要慢许多，而且还容易崩溃。在windows环境下开发的时候，可以先用谷歌浏览器做，做完后换PhantomJS稳定运行。

另：如果需要输入验证码，PhantomJS似乎定位不到页面的输入框，在无头chrome浏览器中测试没有问题，需要在无桌面版本的Centos服务器上安装Xvfb。

因此，坑还是很多的。

关于爬虫的一些记录

猜你喜欢