python-Requests库学习笔记(三)

各个网站都有过滤爬虫的机制,因此,爬虫的伪装就很有必要


查看请求头

r = requests.get('https://www.***.com/get')
r.headers

就会看到本机发送的数据,而要修改主要是user-agent


请求头伪装

主要是在User-Agent处进行修改,主要作用就是伪装成浏览器进行访问。

header = {'User-Agent':'Mozilla/5.0'}
r = requests.get('https://www.***.com/get',headers = headers)

便可以更改请求头user-agent参数,从而伪装成浏览器。
相同的方法可以添加cookie,data其他数据


IP代理

同一个ip访问服务器的速度过快,也有可能被服务器禁止,因此访问时不断使用代理ip更改自己的ip很有必要,这样能提高爬虫的效率

proxies = {'http':'http://xxx.xxx.xxx.xxx:xxxx'}
r = requests.get('http://www.***.com/get',headers = headers,proxies = proxies)

一定要写http协议还是https协议,以字典的方式:‘协议’:‘ip:端口’
除此之外,我们还可以设置多个代理ip,以随机方式,每次发送请求就更改一次,以保证效率

猜你喜欢

转载自blog.csdn.net/weixin_43821663/article/details/86530503