requests模块-响应对象的text与content之间的区别

发送GET请求

需求：通过requests向百度首页发送请求，获取该页面的源码

运行下面的代码，观察打印输出的结果

使用Requests发送GET请求非常简单，只需要调用requests.get()方法即可。例如：

# 导入requests库
import requests

# 目标url
url = 'https://www.baidu.com' 

# 向百度发送GET请求，并获取响应对象
response = requests.get(url)

# 打印响应对象的文本内容，即百度网站的HTML源码
print(response.text)

上述代码将发送一个GET请求到http://www.baidu.com，并打印响应内容。

观察中发现返回的数据会有乱码

在这里插入图片描述

观察上边代码运行结果发现，有好多乱码；这是因为编解码使用的字符集不同早造成的；我们尝试使用下边的办法来解决中文乱码问题

# 导入requests库
import requests 

# 目标url
url = 'https://www.baidu.com' 

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里！

在这里插入图片描述

知识拓展

request中response.text和response.content有什么区别

在使用Python的requests库发送请求时，我们可以使用response.text()或response.content()方法来获取响应内容。这两种方法的区别在于返回的数据类型不同。

`response.text()`

类型：str
解码类型：根据HTTP头部对响应的编码作出有根据的推测，推测的文本编码
如何修改编码方式：response.encoding="gbk"

response.text()方法返回的是Unicode格式的字符串，通常用于处理文本信息。如果响应内容是XML或HTML等文本格式，使用response.text()方法可以方便地解析和处理数据。

当使用response.text()方法时，如果该响应的头部没有指定编码方式，requests库会自动推测出响应的编码方式，然后将响应内容以Unicode格式返回。但需要注意的是，由于requests库是基于chardet模块进行编码推测的，因此存在一定的误判可能性。

此外，需要特别注意的是，如果响应内容为二进制数据而非文本数据，使用response.text()方法会产生乱码或者抛出异常。

`response.content()`

类型：bytes
解码类型：没有指定
如何修改编码方式：response.content.decode("utf-8")

response.content()方法返回的是二进制格式的数据，适用于处理图片、音频、视频等多媒体文件。使用response.content()方法可以直接将响应内容保存到本地，并保留原始二进制数据。

需要注意的是，使用response.content()方法返回的是原始字节串，不会对编码方式进行解析和转换。如果需要将其解码成字符串形式，需要使用bytes对象的decode()方法来指定正确的编码方式，例如response.content.decode("utf-8"),也可以直接使用response.content.decode() 因为response.content.decode默认utf-8。

此外，使用response.content()方法返回的数据可以直接以二进制形式保存到本地或传输给其他系统，无需额外的编码和解码操作。

综上所述，使用response.text()方法适合处理文本信息，使用response.content()方法适合处理二进制数据。在使用这两种方法时，需要注意数据类型和编码方式的匹配问题。