如何理解HTTP在线代理IP?

在这里插入图片描述

绝大部分人都了解,在运用爬虫反复爬取同个网页时,通常情况下会被网页的IP反爬虫机制给屏蔽掉,以便处理禁封IP的问题大都会运用代理IP。

但也是有一小部分人在HTTP代理IP的运用上存有着误区,他们认为运用了代理IP就可以解决任何问题,殊不知代理IP并不是万能的,它只是一个工具,如果错误操作,一样会被封IP。

在代理IP中存在分为3种形式:透明代理、普通匿名代理、高级匿名代理。

高匿、匿名和透明代理的主要区别在于对方服务器获取REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA三个参数的区别。

众所周知,REMOTE_ADDR是无法伪造的。

运用透明代理(Transparent),对方服务器了解你运用了代理,也了解你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=ProxyIP,HTTP_X_FORWARDED_FOR=YourIP

运用匿名代理(Anonymous),对方服务器了解你运用了代理,但不知道你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=ProxyIP,HTTP_X_FORWARDED_FOR=ProxyIP

运用高匿名代理(High),对方服务器不知道你运用了代理,也不知道你的真实IP。REMOTE_ADDR=ProxyIP,HTTP_VIA=NULL,HTTP_X_FORWARDED_FOR=NULL

运用透明代理和普通匿名代理会被目标网页得知运用了代理IP,定会受限制,而高级匿名代理则不会,因而在选择代理IP的时候,要留意这一点。

运用一个代理IP爬取次数目标网页,被封IP的关键因素很多,例如cookie,例如User Agent等,当超过了域值后,IP就会被封;当浏览目标网页的次数过快时,IP也会被封,因为在正常情况下,常人浏览远远达不到那个次数,肯定会被目标网页的反爬虫策略识别。

只要尽可能地模拟真实客户正常情况下浏览,才能够最高程度上地规避被封IP。

猜你喜欢

转载自blog.csdn.net/ipiohiuhn/article/details/114085466