爬虫:模拟浏览器对网站内容进行爬取

版权声明:关注微信公众号:摸鱼科技资讯,联系我们 https://blog.csdn.net/qq_36949176/article/details/84193456

对于一些保护比较好的网站,他能识别你是用requests库对其进行访问,所以有些网站会禁止你用python对其进行访问

所以我们可以修改发送给网站的头部信息,伪造浏览器对网站进行访问

查看我们发送给网站的头部信息:r.request.headers

kv={'user-agent':'Mozilla/5.0'}     // 修改访问的user-agent信息

url="你要爬取的网站的链接"

r=requests.get(url,headers=kv)  //修改你访问发送过去的headers
 

猜你喜欢

转载自blog.csdn.net/qq_36949176/article/details/84193456
今日推荐