商业爬虫时,因为爬取的数据量非常大,需要应对一些反爬。
我们的电脑都有一个固定的 IP 地址(本机IP地址),每次我们都是以这个 IP 去访问。
假如电脑的本机 IP 是 111. 111. 111. 111,端口是 10086。
看本机的 IP 地址: [浏览器点击一个网页] [右击鼠标] [检查] [Network] [XHR] [Headers] [General]
出于安全方面考虑,ip 就不展示了;另外,用代理相当于用了别人的计算机做中间人。
TA 的原理和 《手机APP爬虫》的工具 Charles 是一样的。
如果有 在线支付 money 之类的事情,就不要借用 ip 了,因为会在借用的计算机中传输数据,别人可以搞事情的。
- 登陆数据是明文的,可以看得到所有数据
- 登陆数据是密文的,可以用 cookies 登陆
- 可以拦截给您的返回包,并插一个 xss
- 下个文件,给你替换给木马
- ......
谨记,您的数据过别人的电脑是极不安全的,因此一般用 代理 都是去搞坏事。
p.s. 不管,代理ip 是免费、还是收费的,都是一样。