各个网站都有过滤爬虫的机制,因此,爬虫的伪装就很有必要
查看请求头
r = requests.get('https://www.***.com/get')
r.headers
就会看到本机发送的数据,而要修改主要是user-agent
请求头伪装
主要是在User-Agent处进行修改,主要作用就是伪装成浏览器进行访问。
header = {'User-Agent':'Mozilla/5.0'}
r = requests.get('https://www.***.com/get',headers = headers)
便可以更改请求头user-agent参数,从而伪装成浏览器。
相同的方法可以添加cookie,data其他数据
IP代理
同一个ip访问服务器的速度过快,也有可能被服务器禁止,因此访问时不断使用代理ip更改自己的ip很有必要,这样能提高爬虫的效率
proxies = {'http':'http://xxx.xxx.xxx.xxx:xxxx'}
r = requests.get('http://www.***.com/get',headers = headers,proxies = proxies)
一定要写http协议还是https协议,以字典的方式:‘协议’:‘ip:端口’
除此之外,我们还可以设置多个代理ip,以随机方式,每次发送请求就更改一次,以保证效率