ProxyHandler处理器（爬虫代理IP）

1.代理的原理：在请求目的网站之前，先请求代理服务器，然后让代理服务器去请求目的网站，代理服务器拿到目的网站的数据，再转发给我们代码。
2.http://httpbin.org:这个网站可以方便查看http请求的一些参数。
3.在代码中使用代理：

使用urllib.request.ProxyHandler,传入一个代理，这个代理是一个字典，字典的key依赖于代理服务器能够接收的类型，一般是’http’或者’https’，值是ip:port。
使用上一步创建的’handler’，以及’request.buid_opener’创建一个’opener’。
使用上一步创建的’opener’，调用’open’函数，发起请求。
示例代码如下：

#使用代理：
from urllib import request
url = 'http://httpbin.org/ip'
#1.使用proxyHandler传入代理构建一个handler
handler = request.ProxyHandler({"http":"223.241.78.43:8010"})
#2.使用上面的handler构建一个opener
opener = request.build_opener(handler)
#3.使用opener去发送请求
resp = opener.open(url)
print(resp.read())

使用代理好处：
代理IP相当于一个信息中转站，它会代替客户端向服务器发送请求，并将服务器返回的响应转发给客户，相当于一个连接客户端和服务器的桥梁。正是代理IP的工作原理决定了它具有广泛的应用。

使用过爬虫的人应该都会遇到，就是爬取的时候IP会突然被网站封掉，这是因为大多数网站都会设置“反爬虫”措施。

为什么要反爬虫？因为爬虫会在短时间内发出大量请求，会影响正常用户的访问体验，严重的还会导致网站瘫痪，所以网站一般都会设置反爬虫措施。

由于存在反爬虫措施，所以爬虫的IP经常会被封禁。不过使用了动态IP代理的爬虫，就不会出现这种情况。因为动态代理IP每隔一段时间就会切换新的IP，如果IP被封禁了，换个IP就可以继续爬虫了。

普通的爬虫，如果使用了代理IP，就可以有效的解决反爬的问题，提高工作效率，这就是爬虫使用代理IP最大的效果。
不使用代理IP：

#没有代理
from urllib import request
url = 'http://httpbin.org/ip'
resp = request.urlopen(url)
print(resp.read())

分别分享了两种自己所学方法，希望能够帮助大家。更快的了解代理IP的使用。

网上最实用的三大代理IP网站：

1.西刺免费代理IP：http://www.xicidaili.com/
2.快代理：http://www.kuaidaili.com/
3.代理云：http://www.dailiyun.com/

ProxyHandler处理器（爬虫代理IP）

猜你喜欢