一、Requests库
r=requests.gets(url) 构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象
requests.get(url,params=None,**kwargs)
url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数
事实上,requests一共提供七个常用方法,后面六个方法都是通过调用request()方法来实现的。
Response包含了爬虫返回的全部内容
二、Response对象的属性
分析:
三、requests库的异常
四、Requests库的简单使用
第一个小爬虫:
>>>import requests
>>>r=requests.get("http://www.baidu.com")
>>>print(r.stauts_code)
200 说明成功
>>>type(r)
<class 'requests.models.Response'>
>>>r.headers
{...}
>>>r.encoding
>>>r.apparent_encoding
>>>r.encoding='utf-8'
r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1(不太准确)
r.apparent_encoding:根据网页内容分析出的编码方式(更准确)