Python爬虫——使用代理IP
本文使用的版本为Python3,使用的IDE为Pycharm
使用代理IP爬取百度首页
首先需要获取代理IP地址,可以从该 网站 获取,同时选择验证时间尽量短的
示例代码如下:
# 使用代理IP爬取百度首页
# 定义使用代理IP函数
def use_proxy(proxy_addr, url):
from urllib import request
proxy = request.ProxyHandler({"http":proxy_addr})
opener = request.build_opener(proxy, request.HTTPHandler)
request.install_opener(opener)
data = request.urlopen(url).read()
return data
# 此处需要更换为上述提到的网站的相应IP地址
proxy_addr = "101.236.22.141:8866"
data = use_proxy(proxy_addr, "http://www.baidu.com")
fhandle = open("D:\\baidu.html", "wb")
fhandle.write(data)
fhandle.close()