spider 02爬虫requests库

import requests

1发送带header的请求

为什么请求需要带上header?
模拟浏览器,欺骗服务器,获取和浏览器一致的内容
header的形式:字典

headers={“User-Agent”:"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36
"}
用法:request.get(url,headers=headers)

2发送带参数的请求

例如:https://www.baidu.com/s?wd=python&c=b
参数的形式:字典
kw={“wd”:“长城”}
用法:request.get(url,params=kw)

url编码和其他的编码方式不太一样

task
1获取新浪首页,查看response.text和response.content.decode()的区别
2.实现任意贴吧的爬虫,保存网页到本地

猜你喜欢

转载自blog.csdn.net/qq_35264080/article/details/84663958