爬虫学习笔记-requsets的基本知识。


```python
r=requests.get(url,params=None,**kwargs)
其中:
r为response,即get请求返回的响应。
`r.status_code`  :HTTP请求的返回状态,200表示成功,404表示失败(只要不是200,都表示失败)
`r.text`: 相应内容的字符串形式。
`r.encoding`:猜测的编码形式
`r.apparent_encoding`:系统判断的编码形式,若headers中不存在charset,则默认为ISO-8859-1.

出现的异常:
requests.ConnectionError:网络链接错误异常,如DNS查询失败,拒绝连接等。
requests.HTTPError:HTTP错误异常。
requests.URLRequired:URL缺失异常。
requests.TooManyRedirects:超过最大重定向次数。
requests.ConnectTimeout:;连接远程服务器超时异常。
requests.Timeout:请求url超超时。

r.raise_for_status():如果状态码不是两百,产生异常requests.HTTPError,一般在try.except框架使用这个。

HTTP协议:无状态请求协议。
url格式:Http://host[:port][path]。
host:合法的Internet主机域名或IP地址。
port:端口号,缺省为80。
path:请求资源的路径。

PATCH,仅向url提交局部更新请求,可以节省网络带宽。
PUT,未提交字段被删除

headers字段:模拟浏览器访问。
auth:元组
cookies:网页特殊认证码
files:字典类型,传输文件
timeout:设定超时时间
proxies:设定访问代理服务器
allow_redirects:重新定向开关
Stream:获取内容立即加载开关
verify:认证SSL证书
cert:本地SSL证书

爬虫限制:
1.来源审查,判断User-Agent进行限制
2.Robots协议,告知爬取策略,要求遵守。使用方法:在网站主域名后加/robots.txt。





发布了8 篇原创文章 · 获赞 4 · 访问量 154

猜你喜欢

转载自blog.csdn.net/weixin_43960465/article/details/104597325