购买的代理ip被网站判定为爬虫,怎么办?

在这里插入图片描述
大多数时候,由于工作需要,可能会使用大量的信息。此时,如果爬虫程序被捕获,可以大大节省工作时间,提高工作效率,但偶尔会遇到网站禁止访问的情况。

目前在线上有许多公开教程和程序,可供参考。如果你不是专业程序员,你也可以使用专业的数据采集工具。当然,没有工具你可以安全无忧。例如,抓住资料,突然发现自己的IP地址被网站封锁了。同一条链接可以正常访问,但爬虫们没有办法,只能等上几个小时。那么这种情况下该怎么办呢?

1、查看请求连接的request。
最好将爬虫的header和fiddler截获中的header设置为相同的值,爬虫的头部信息需要带上referer,很多网站都是基于此进行验证的。查看请求中的每一个参数是否正确,试着修改一些参数信息,或者多对比一些其他爬虫程序,找出其中的规则,并将其应用到自己的爬虫程序中。代码格式还需要满足网站的要求。
2、设定好时间间隔,毕竟服务器也有一定的承压范围,过于频繁的抓取很容易导致网站服务器崩溃,为了维护自己的服务器,这种短期大量收集数据的方式自然会被屏蔽。
3、尝试更改ip地址后再进行请求
有些网站会根据您当前ip地址的信息来判断是否是爬虫程序,因此可以更改代理ip信息后再进行操作。提醒大家,网上免费ip的稳定性和可用性不高,还是要找正规的供应商,比如芝麻HTTP代理、太阳HTTP代理等。
在这里插入图片描述
最终提醒大家,抓取信息要用在正确的方法上,不要做任何违法的事。

猜你喜欢

转载自blog.csdn.net/zhimaHTTP/article/details/114944740