【转载】爬虫常见反爬思路

原始链接：https://blog.51cto.com/14237227/2362691

爬虫立场

爬虫的目的就是大规模地、长时间地获取数据，不过，总使用一个IP去爬网站，大规模集中对服务器访问，时间一长就有可能被拒绝，爬虫长时间爬取数据，还可能会要求验证码，即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。

下面5个技巧是爬虫常用的：

技巧一：设置下载等待时间/下载频率
大规模集中访问对服务器的影响较大，也容易被服务器屏蔽IP。爬虫程序可以增大爬取时间间隔。这样比较不容易引起服务器注意。

技巧二·：修改User-Agent
最常见的就是伪装浏览器，修改User-Agent(用户代理)。
具体方法可以把User-Agent的值改为浏览器的方式，甚至可以设置一个User-Agent池(list，数组，字典都可以)，存放多个“浏览器”，每次爬取的时候随机取一个来设置request的User-Agent，这样User-Agent会一直在变化，防止被墙。

技巧三：设置cookies
cookie其实是储存在用户终端的一些被加密的数据，有些网站通过cookies来识别用户身份，如果某个访问总是高频率地发请求，很可能会被网站注意到，被嫌疑为爬虫，这时网站就可以通过cookie找到这个访问的用户而拒绝其访问。
1. 自定义设置cookies策略(防止cookierejected问题，拒绝写入cookie) 在系列一那篇文章里就有自定义cookie策略设置，但更多的借鉴是官方文档的例子，设置方法其实都大同小异，因为HttpClient-4.3.1组件版本跟以前旧版本的不同，写法也有不同，另见官方文档：http://hc.apache.org/httpcomponents-client-4.3.x/tutorial/html/statemgmt.html#d5e553
2. 禁止cookies 通过禁止cookie，这是客户端主动阻止服务器写入。禁止cookie可以防止可能使用cookies识别爬虫的网站来ban掉我们。在scrapy爬虫中可以设置COOKIES_ENABLES= FALSE，即不启用cookies middleware，不向web server发送cookies。

技巧四：分布式爬取
分布式爬取的也有很多Githubrepo。原理主要是维护一个所有集群机器能够有效分享的分布式队列。
使用分布式爬取还有另外一个目的：大规模抓取，单台机器的负荷很大，况且速度很慢，多台机器可以设置一个master管理多台slave去同时爬取。

【转载】爬虫常见反爬思路

猜你喜欢