爬虫基础--requests,.content的基本使用

首先导入模块

import requests

其次设置请求头(以知乎某用户为例)

request_headers = {
    
    
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, sdch, br',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Cache-Control':'max-age=0',
    'Connection':'keep-alive',
    'Cookie':'',
    'Host':'www.zhihu.com',
    'Referer':'https://www.zhihu.com/',
    'Upgrade-Insecure-Requests':'1',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
 } 
 #这是字典格式

然后就可以发送请求了

1.requests.get(url,headers = request_headers) #这一步是像这个链接发送请求,得到的结果是,这个页面的源码
2.html = requests.get(url,headers = request_headers) 
#  设置一个变量承接返回的数据
3. print(html.content)

关于.content和.text

.content 返回的是可以自由加工的(以你想要的编码格式来进行编码)的字节串,是只高于二进制数据的一种数据存储单位。

.text() 返回的基于对内容类型的猜测而加工过的数据,这种数据形式比较直观,但有时也会因为解码方式不对而产生乱码

在网上看到的回答中推荐到的做法是

.content.decode('utf-8')

猜你喜欢

转载自blog.csdn.net/weixin_47249161/article/details/113876299