爬虫框架Requests 之(四) --- Requests模块

什么是Requests

Requests是采用Apache2 Licensed开源协议的HTTP库,用python语言基于urllib编写的。
使用 Requests会比urllib更加方便，可以节约我们大量的工作。Requests是python实现的最简单易用的HTTP库。

Requests模块需要单独通过pip安装（pip install Requests）

requests功能介绍

很多情况下的网站如果直接response.text会出现乱码的问题，所以使用response.content，这样获取的数据是二进制数据；同样的，这个方法也可以用于下载图片以及视频资源

这样返回的数据格式其实是二进制格式，然后通过decode()转换为utf-8，这样就解决了通过response.text直接返回显示乱码的问题.

请求发出后，Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时，Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码，并且能够使用 response.encoding 属性来改变它.

不管是通过response.content.decode("utf-8)的方式还是通过response.encoding="utf-8"的方式都可以避免乱码的问题发生

requests提供的请求方式

1 import requests
2 
3 requests.post("http://httpbin.org/post")     # 向HTML网页提交POST请求方法，对应HTTP的POST
4 requests.put("http://httpbin.org/put")       # 向HTML网页提交PUT请求的方法，对应HTTP的PUT
5 requests.delete("http://httpbin.org/delete") # 向HTML页面提交删除请求,对应HTTP的DELETE
6 requests.head("http://httpbin.org/get")      # 获取HTML网页头的信息方法，对应HTTP的HEAD
7 requests.get("http://httpbin.org/get")       # 获取HTML网页的主要方法，对应HTTP的GET

GET请求

简单get请求

1 import requests
2 response = requests.get('http://httpbin.org/get')
3 print(response.text)

带参get请求

1 import requests
2 response = requests.get("http://httpbin.org/get?name=zhaofan&age=23")
3 print(response.text)

若想要在URL查询字符串传递数据，通常通过httpbin.org/get?key=val方式传递。

Requests模块允许使用params关键字传递参数，以一个字典来传递这些参数。

1 import requests
2 data = {
3      "name":"guomuzi",
4      "age":25
5 }
6 response = requests.get("http://httpbin.org/get",params=data)。
7 # 通过params参数传递一个字典内容，从而直接构造url
8 print(response.url)
9 print(response.text)

注意：第二种方式通过字典的方式的时候，如果字典中的参数为None则不会添加到url上

添加headers

Requests和urllib模块一样可以定制headers的信息，当直接通过requests请求某些网站的时候，默认是无法访问的，因为有的网站需要头部信息，在谷歌浏览器地址栏输入 chrome://version 查看用户代理，将用户代理添加到头部信息

1 import requests
2 
3 headers = {
4     "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
5 }
6 response =requests.get("https://www.zhihu.com",headers=headers)
7 
8 print(response.text)

POST请求

通过在发送post请求时添加一个data参数，这个data参数可以通过字典构造成，这样对于发送post请求就非常方便

同样在发送post请求的时候也可以和发送get请求一样通过headers参数传递一个字典类型的请求头数据

1 import requests
2 
3 data = {
4     "name":"zhaofan",
5     "age":23}
6 response = requests.post("http://httpbin.org/post",data=data)
7 print(response.text)

response响应

可以通过response获得很多属性.

import requests
response = requests.get("http://www.baidu.com")

print(type(response.status_code),response.status_code) # 获取响应类型 和 状态码信息
print(type(response.headers),response.headers)         # 获取响应类型 和 头部信息
print(type(response.cookies),response.cookies)         # 获取响应类型 和 cookie信息
print(type(response.url),response.url)                 # 获取响应类型 和 URL信息
print(type(response.history),response.history)         # 获取响应类型 和 响应历史信息
print(type(response.text),response.text)       # 获取响应类型 和 返回的是 unicode型的文本数据
print(type(response.content),response.content) # 获取响应类型 和 返回的是 bytes 型的二进制数据

状态码判断
Requests还附带了一个内置的状态码查询对象
例如：200: ('ok', 'okay', 'all_ok', 'all_okay', 'all_good', '\o/', '✓')

import requests

response= requests.get("http://www.baidu.com")
if response.status_code == requests.codes.ok:
    print("访问成功")

解析json

requests里面集成的json其实就是执行了json.loads()方法，两者的结果是一样的

import requests
import json
response = requests.get("http://httpbin.org/get")

print(type(response.text))
print(response.json())
print(json.loads(response.text))
print(type(response.json()))

requests高级用法

文件上传

实现方法和其他参数类似，也是构造一个字典然后通过files参数传递

1 import requests
2 
3 files= {"files":open("git.jpeg","rb")}
4 response = requests.post("http://httpbin.org/post",files=files)
5 print(response.text)

结果如下：

获取cookie

import requests

response = requests.get("http://www.baidu.com")
for key,value in response.cookies.items():
    print(key+"="+value)

会话维持

cookie的一个作用就是可以用于模拟登陆，做会话维持

import requests

s = requests.Session()
s.get("http://httpbin.org/cookies/set/number/123456")
response = s.get("http://httpbin.org/cookies")
print(response.text)

证书验证

现在的很多网站都是https的方式访问，所以就涉及到证书的问题

例如默认的12306网站的证书是不合法的，会提示如下错误，为了避免这种情况的发生可以通过verify=False，但是这样是可以访问到页面，但是会提示：

InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings InsecureRequestWarning)

解决方法为：

import requests
from requests.packages import urllib3

urllib3.disable_warnings()
response = requests.get("https://www.12306.cn",verify=False)
print(response.status_code)

代理设置

 1 import requests
 2 
 3 proxies= {
 4     "http":"http://127.0.0.1:9999",
 5     "https":"http://127.0.0.1:8888"
 6 }
 7 
 8 # 如果代理需要设置账户名和密码,需要将字典更改为如下：
 9 proxies = {
10 "http":"http://user:[email protected]:9999"
11 }
12 
13 # 如果代理是通过sokces这种方式，则需要pip install "requests[socks]"
14 proxies= {
15 "http":"socks5://127.0.0.1:9999",
16 "https":"sockes5://127.0.0.1:8888"
17 }
18 
19 response  = requests.get("https://www.baidu.com",proxies=proxies)
20 print(response.text)

超时设置 通过timeout参数可以设置超时的时间

认证设置

如果碰到需要认证的网站可以通过requests.auth模块实现

1 import requests
2 from requests.auth import HTTPBasicAuth
3 
4 response = requests.get("http://120.27.34.24:9001/",auth=HTTPBasicAuth("user","123"))
5 print(response.status_code)
6 
7 # 还可以
8 response = requests.get("http://120.27.34.24:9001/",auth=("user","123"))
9 print(response.status_code)

异常处理

所有的异常都是在requests.excepitons中

详细的可以看：http://cn.python-requests.org/zh_CN/latest/_modules/requests/exceptions.html#RequestException

 1 import requests
 2 from requests.exceptions import ReadTimeout,ConnectionError,RequestException
 3 
 4 try:
 5     response = requests.get("http://httpbin.org/get",timout=0.1)
 6     print(response.status_code)
 7 except ReadTimeout:
 8     print("timeout")
 9 except ConnectionError:
10     print("connection Error")
11 except RequestException:
12     print("error")

其实最后测试可以发现，首先被捕捉的异常是timeout,当把网络断掉的haul就会捕捉到ConnectionError，

如果前面异常都没有捕捉到，最后也可以通过RequestExctption捕捉到