北斗剑阵, 爬虫IP破封不可阻挡

北斗剑阵, 爬虫IP破封不可阻挡
“人在江湖飘，哪能不挨刀。”话糙理不糙，在我们酣畅淋漓地使用爬虫抓取数据为我们所用的时候，却也能难免遇到强敌，IP遭到封锁，爬虫被反。那么万一不行，IP被封了，有什么方法来解呢？

当然有，还很多。

方法1.

之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。

经验如下：

IP必须有，可以直接使用成熟的代理IP服务商，类似像太阳HTTP代理这种。

好处：

1.程序逻辑变化小，只需要代理功能。

2.根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。

3.就算具体IP被屏蔽了，你可以直接把IP代理下线就OK，程序逻辑不需要变化。

方法2.

有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for，即可绕过。

大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是VPS再配多IP，通过默认网关切换来实现IP切换。

方法3.

ADSL + 脚本，监测是否被封，然后不断切换 ip

设置查询频率限制

正统的做法是调用该网站提供的服务接口。

方法4.

1 user agent 伪装和轮换

2 使用代理 ip 和轮换

3 cookies 的处理，有的网站对登陆用户政策宽松些

友情提示：考虑爬虫给人家网站带来的负担，be a responsible crawler :)

方法5.

尽可能的模拟用户行为：

1、UserAgent经常换一换；

2、访问时间间隔设长一点，访问时间设置为随机数；

3、访问页面的顺序也可以随机着来

方法6.

网站封的依据一般是单位时间内特定IP的访问次数.

我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

方法7.

总结：

-降低抓取频率，时间设置长一些，访问时间采用随机数

-频繁切换UserAgent（模拟浏览器访问）

-多页面数据，随机访问然后抓取数据

-使用代理IP不间断更换

太阳HTTP为您提供海量IP，高度隐匿真实IP。爬虫行进畅通无阻！