import requests  

r = requests.get('https://www.baidu.com/')  
print(type(r))  
print(r.status_code)  
print(type(r.text))  
print(r.text)  
print(r.cookies)

运行结果：

输出结果得到了一个 Response 对象，然后分别输出了 Response 的类型、状态码、响应体的类型、内容以及 Cookies。或许在这里你还看不懂，那么请看下去，你会懂的！

四、get 请求

3.1 基础讲解一

还是以百度为例子：

网址：https://www.baidu.com/

为什么我这里只演示了百度？因为这个不会被反扒，如果被反扒，则会返回为空。大家可以试试别的网址，比如我的博客地址，基本返回为空。但不必担心，后续会学习并分享给大家有关反扒的。

我们用get请求网址，打印txt则获取到百度页面源码：

import requests 
r = requests.get('https://www.baidu.com/') 
print(r.text)

输出结果：

3.3 基础讲解二

我们以CSDN为例：

这里就直接使用requests模块的get函数直接来获取（get和urlopen是相同的），主要是这个更方便些：

import requests

r=requests.get('https://mp.csdn.net/mp_blog/manage/article')

print(r.status_code)#打印状态码
print(r.text)#打印文本
print(r.cookies)#打印cookie

运行结果：

再举例子：

import requests

r=requests.post('https://www.csdn.net/?spm=1011.2124.3001.5359')
s=requests.put('https://www.csdn.net/?spm=1011.2124.3001.5359')

print(r.status_code)
print(r.text)
print(s.status_code)
print(s.text)

运行结果：

虽然请求失败但不影响，主要是介绍下用requests模块的话，可以很简单的方式请求，比如说put,post,delete这些之间换一下就换了一个请求方法。这里之所以请求失败是因为我们被反扒了。

3.2 基础讲解三

首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/get，该网站会判断如果客户端发起的是 GET 请求的话，它返回相应的请求信息.
代码：

import requests  
r = requests.get('http://httpbin.org/get')
print(r.text)

运行结果：

此时我们可以发现，我们成功发起了 GET 请求，返回结果中包含请求头、URL、IP 等信息。
那么，对于 GET 请求，如果要附加额外的信息，一般怎样添加呢？比如现在想添加两个参数，其中 name 是 germey，age 是 22。

要构造这个请求链接，是不是要直接写成：

r = requests.get('http://httpbin.org/get?name=germey&age=22')

这同样很简单，利用 params 这个参数就好了，示例如下：

import requests  

data = {  
    'name': 'germey',  
    'age': 22  
}  
r = requests.get("http://httpbin.org/get", params=data)  
print(r.text)

运行结果：

通过返回信息我们可以判断，请求的链接自动被构造成了：http://httpbin.org/get?age=22&name=germey
另外，网页的返回类型实际上是 str 类型，但是它很特殊，是 JSON 格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用 json 方法。

示例如下：

import requests  

r = requests.get("http://httpbin.org/get")  

print(type(r.text))  
print(r.json())  
print(type(r.json()))

运行结果：

我们可以发现，调用 json 方法，就可以将返回结果是 JSON 格式的字符串转化为字典。

3.4 获取cookie

import requests

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'
}#请求头

url='https://www.csdn.net/?spm=1011.2124.3001.5359'

r=requests.get(url=url,headers=headers)

print(r.cookies)#直接打印

运行结果：

3.5 获取请求头

手动获取：
点击右键，选择检查，再选择network，刷新一下（ctrl+r），随机选其中一个内容，（或如图）如下将 User-Agent 后的内容复制出来就行：

3.6 添加请求头

我们也可以通过 headers 参数来传递头信息。比如，在下面我们的面 “知乎” 的例子中，如果不传递 headers，就不能正常请求,请求结果为403：

import requests

r = requests.get("https://www.zhihu.com/explore")
print(r.text)

运行结果：

但如果加上 headers 并加上 User-Agent 信息，那就没问题了：

import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
print(r.text)

运行结果：

此时可以看到加请求头成功了。
为什么加请求头？ 加上后可以模拟正常浏览器，防止被反扒。

3.5 知乎爬取+反扒技术

先获取cookies:

import requests
headers={
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
} #请求头
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.cookies)

运行结果：

或者登录知乎,找到cookie:

用这里的cookie来获取网页：

import requests
headers={
    'Cookie':'_zap=05c6669b-d609-4b2d-836d-c4e713ed7831; d_c0="AFAfZacmRBOPTjQC-e4owqO1ysBeTeL3Vzw=|1623771050"; _xsrf=bqDX2DchG0ZA7EC9pkRRGEaVn3QkTrZi; captcha_session_v2="2|1:0|10:1636804292|18:captcha_session_v2|88:WjRRYXljbms2MmtweWJzMU9SQ1NrRlpPa2Q0ZytFWlJ0THpud2ZJQ1YxUktQbEg3a0EyTWNnYUprdUNhUW9qbQ==|0c9ffe3bd4b71219514487843501772ea80b4d14e4009a776f9a7529f4a56613"; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1636541465,1636541647,1636771333,1636804292; l_n_c=1; r_cap_id="YmNjZjMyOGVlZTM3NDRlNjlkYTkxZTY1Yjg1ODdhMjA=|1636804293|d3a977b05d2ed03f94aa4cc909fbb3232619c402"; cap_id="M2NkNWEzZDRkYmMwNDYwZThkMmRhNDU0M2QzZWU5ZGE=|1636804293|b9ec3e1451d5cd873d86525d785868acfa08c556"; l_cap_id="MjA5MGU4YjUyOGZhNGZlYWI3NzY0NGQ1ZWY5MjcyYmM=|1636804293|9ec9d7a50eb48b4e5450a2962e8090f86bf1281c"; n_c=1; SESSIONID=iachyVQaPqsWF2xcGJGC7c7RvcJvrlusR39loCQax90; __snaker__id=dYZWp8JZry4pPHne; JOID=VFsUAknVovxY469NX9IDpZ1o-iVLucGfM578Hj6B1o0PppkwPh8GcD7iqE9cjgkePw8VMqkDcY9vrgPNPl3u4uc=; osd=UV8UB0zQpvxd5qpJX9cGoJlo_yBOvcGaNpv4HjuE04kPo5w1Oh8DdTvmqEpZiw0eOgoQNqkGdIprrgbIO1nu5-I=; gdxidpyhxdE=7GzbIgu7wGey6y7Z4EeYzrtLlNOZOi08rMg9VqGGe%5Cs2tG9dg0lGBcPR%2BWxzp0u0eY3fRqE%5C1USNlC8qYP4lkOhjflbMytQvptR4ERWDs%5Ck5WyN40f%2FkwXx0cWg60pasJBZBPHI%2FGH66x5r3m2Ogsly%2BNpDDUt6T0qN%2F1vaur8USEdZT%3A1636805203141; _9755xjdesxxd_=32; z_c0=Mi4xdzNpOEV3QUFBQUFBVUI5bHB5WkVFeGNBQUFCaEFsVk56X1I4WWdBb2VFN0ZJUzQ3RVJDRGNVT2FmdDYxT0xXNXV3|1636804303|204653c41cd7c89747145d10e635c8403ba38549; tst=r; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1636804313; NOT_UNREGISTER_WAITING=1; KLBRSID=b5ffb4aa1a842930a6f64d0a8f93e9bf|1636804319|1636804289',
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
    'host':'www.zhihu.com',
}
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.text)

运行结果：

返回结果有知乎里的相关内容，这样就是成功登录知乎了
再提一点session,它可以实现同一个站点进去不同页面：

import requests
s=requests.Session()
s.get('http://httpbin.org/cookies/set/number/147258369')
r=s.get('http://httpbin.org/cookies')
print(r.text)

运行结果：

3.6 抓取二进制数据

如果想抓取图片、音频、视频等文件，应该怎么办呢？
图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。所以，想要抓取它们，就要拿到它们的二进制码。

3.6.1 示例一

下面以 GitHub 的站点图标为例来看一下：

import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

运行结果：

可以注意到，前者出现了乱码，后者结果前带有一个 b，这代表是 bytes 类型的数据。由于图片是二进制数据，所以前者在打印时转化为 str 类型，也就是图片直接转化为字符串，这理所当然会出现乱码。
接着，我们将刚才提取到的图片保存下来：

import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
    f.write(r.content)

运行后即可保存完成！！！可以自己设定保存位置哦！！

3.6.2 示例二

以爬取我自己的头像为例子：

保存代码如下，运行即可保存，位置资源！！！：

import requests
headers={
    'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
}
url='https://profile.csdnimg.cn/2/B/0/1_qq_25990967.jpg'
r = requests.get(url=url,headers=headers)
with open('phpto.jpg', 'wb') as f:
    f.write(r.content)

3.7 美女私房照爬取（准备发车）

第一部分：定义要爬取的标签和正在爬取的页数

def UserUrl(theme,pagenum):
    url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {'theme': urllib.parse.quote(theme), 'pagenum': pagenum}
    #print(url)
    return url

第二部分：防止反扒

def GetHtmltext(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
    }
    try:
        r = requests.get(url, headers=head, timeout=30)
        r.raise_for_status()  #如果返回的状态码不是200，就到except中
        return r
    except:
        pass

第三部分：定义获取一个pagenum页面中的所有图集的URL链接的函数

def PictureFatherUrl(user_url):
    try:
        raw_data = GetHtmltext(user_url)
        j_raw_data = json.loads(raw_data.text)   #将获取的网页转化为Python数据结构
        # print(j_raw_data)
        father_url = []                    #将每个图集的url定义为father_url的一个列表
        for i in j_raw_data['postList']:   #解析出的j_raw_data是一个多重字典，在这里先将postList字典的内容取出来
            father_url.append(i['url'])     #然后再取出键为“url”的值
        return father_url
    except:
        return

第四部分：定义获取一个图集中所有图片的url链接

def PictureUrl(url):
    try:
        html = GetHtmltext(url)
        #利用正则表达式来匹配
        url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))
        return url_list
    except:
        pass

第五部分：

#定义一个图集中所有图片的下载
def Download(url):
    url_list = PictureUrl(url)
    for i in url_list:
        r = GetHtmltext(i)
        file_name = os.path.join(save_path, i.split('/')[-1])
        with open(file_name, 'wb') as f:
            f.write(r.content)
            f.close()
        time.sleep(random.uniform(0.3, 0.5))  #为防止被反爬，在这里random了0.3-0.5的数，然后在下载一张图片后，sleep一下
        print('下载成功保存至 %s' % file_name)

主函数部分：

if __name__ == '__main__':
    theme = input("你选择的标签（如果你不知道有什么标签，去https://tuchong.com/explore/去看看有什么标签吧，输入不存在的标签无法下载哦）：")
    pagenum_all = int(input("你要爬取的页数(不要太贪心哦，数字太大会被封IP的）："))
    save_path = os.path.join(theme)
    m = 0
    if not os.path.exists(save_path):
        os.makedirs(save_path)
        print("我知道你没有创建保存路径，我把文件存在和此脚本同样的路径下的叫做“ %s ”的文件夹下面了" % theme)
    for i in range(1, pagenum_all+1):
        n = 0
        m += 1
        print("正在下载第%d页，一共%d页" % (m, pagenum_all))
        user_url = UserUrl(theme, i)
        father_url = PictureFatherUrl(user_url)
        for j in father_url:
            n += 1
            print("正在下载第%d套图，一共%d套图" % (n, len(father_url)))
            Download(j)
            time.sleep(random.randint(6, 10))  #同样为了反爬，也random了6-10之间的数，更真实的模拟人的操作

完整源代码如下：

#coding=gbk

import os
import re
import json
import requests
import time
import urllib.parse
import random


#定义要爬取的标签和正在爬取的页数
def UserUrl(theme,pagenum):
    url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {'theme': urllib.parse.quote(theme), 'pagenum': pagenum}
    #print(url)
    return url

#利用requests使用get方法请求url，使用User-Agent是为了防止被反爬，这样使得我们的爬取行为更像人的行为
def GetHtmltext(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
    }
    try:
        r = requests.get(url, headers=head, timeout=30)
        r.raise_for_status()  #如果返回的状态码不是200，就到except中
        return r
    except:
        pass

#定义获取一个pagenum页面中的所有图集的URL链接的函数
def PictureFatherUrl(user_url):
    try:
        raw_data = GetHtmltext(user_url)
        j_raw_data = json.loads(raw_data.text)   #将获取的网页转化为Python数据结构
        # print(j_raw_data)
        father_url = []                    #将每个图集的url定义为father_url的一个列表
        for i in j_raw_data['postList']:   #解析出的j_raw_data是一个多重字典，在这里先将postList字典的内容取出来
            father_url.append(i['url'])     #然后再取出键为“url”的值
        return father_url
    except:
        return

#定义获取一个图集中所有图片的url链接
def PictureUrl(url):
    try:
        html = GetHtmltext(url)
        #利用正则表达式来匹配
        url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))
        return url_list
    except:
        pass

#定义一个图集中所有图片的下载
def Download(url):
    url_list = PictureUrl(url)
    for i in url_list:
        r = GetHtmltext(i)
        file_name = os.path.join(save_path, i.split('/')[-1])
        with open(file_name, 'wb') as f:
            f.write(r.content)
            f.close()
        time.sleep(random.uniform(0.3, 0.5))  #为防止被反爬，在这里random了0.3-0.5的数，然后在下载一张图片后，sleep一下
        print('下载成功保存至 %s' % file_name)

#定义主函数
if __name__ == '__main__':
    theme = input("你选择的标签（如果你不知道有什么标签，去https://tuchong.com/explore/去看看有什么标签吧，输入不存在的标签无法下载哦）：")
    pagenum_all = int(input("你要爬取的页数(不要太贪心哦，数字太大会被封IP的）："))
    save_path = os.path.join(theme)
    m = 0
    if not os.path.exists(save_path):
        os.makedirs(save_path)
        print("我知道你没有创建保存路径，我把文件存在和此脚本同样的路径下的叫做“ %s ”的文件夹下面了" % theme)
    for i in range(1, pagenum_all+1):
        n = 0
        m += 1
        print("正在下载第%d页，一共%d页" % (m, pagenum_all))
        user_url = UserUrl(theme, i)
        father_url = PictureFatherUrl(user_url)
        for j in father_url:
            n += 1
            print("正在下载第%d套图，一共%d套图" % (n, len(father_url)))
            Download(j)
            time.sleep(random.randint(6, 10))  #同样为了反爬，也random了6-10之间的数，更真实的模拟人的操作

运行：按照提示输入后回车

后得到：

当然，难道我的心只有美女小姐姐？NONONO！你只要输入该网任意一个标签的都可给下载下来,比如帅哥？你可以测试一下！！！

四、 POST 请求

前面我们了解了最基本的 GET 请求，另外一种比较常见的请求方式是 POST。

4.1 数据表单提交

使用 requests 实现 POST 请求同样非常简单，示例如下：

import requests

data = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

这里还是请求 http://httpbin.org/post，该网站可以判断如果请求是 POST 方式，就把相关请求信息返回。
运行结果如下：

可以发现，我们成功获得了返回结果，其中 form 部分就是提交的数据，这就证明 POST 请求成功发送了。

4.2 添加请求头

代码如下：

import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
headers = {"User-Agent":"test request headers"}
 

r = requests.post(url,headers=headers)
print(r.text)

运行结果：

可以看到User-Agent部分为我们添加的自定义请求头。

4.3 提交json

假设我想提交json格式的内容：

# -*- coding:utf-8 -*-
import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
data = {
    "sites": [
                { "name":"test" , "url":"https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343" },
                { "name":"google" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120703631?spm=1001.2014.3001.5501" },
                { "name":"weibo" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120659923?spm=1001.2014.3001.5501" }
    ]
}
 
r = requests.post(url,json=data)
# r = requests.post(url,data=json.dumps(data))
response = r.json()
print(response)

运行结果：

4.4 普通文件上传

代码：

# -*- coding:utf-8 -*-
import requests
import json
 
host = "http://httpbin.org/"
endpoint = "post"
 
url = ''.join([host,endpoint])
#普通上传
files = {
            'file':open(r'D:\桌面\a.txt','rb') #打开文件路径
        }
 
r = requests.post(url,files=files)
print (r.text)

运行结果：

总结：

在学本文章之前，也康过类似文章，但一看就觉得特别难，这次可以说是有人逼着学了学，学完感觉没有想象的那么难，真心感谢大佬给的这次机会，谢谢！！如果本文章有错误之处，请大家多多指正！！！

零基础爬虫requests初阶教程，手把手教你爬数据

一、环境与工具

二、学爬虫必备知识

三、简单体验 requests

四、get 请求

3.1 基础讲解一

3.3 基础讲解二

3.2 基础讲解三

3.4 获取cookie

3.5 获取请求头

3.6 添加请求头

3.5 知乎爬取+反扒技术

3.6 抓取二进制数据

3.7 美女私房照爬取（准备发车）

四、 POST 请求

4.1 数据表单提交

4.2 添加请求头

4.3 提交json

4.4 普通文件上传

总结：

猜你喜欢

零基础爬虫requests初阶教程，手把手教你爬数据

一、环境与工具

二、学爬虫必备知识

三、简单体验 requests

四、get 请求

3.1 基础讲解一

3.3 基础讲解二

3.2 基础讲解三

3.4 获取cookie

3.5 获取请求头

3.6 添加请求头

3.5 知乎爬取+反扒技术

3.6 抓取二进制数据

3.7 美女私房照爬取（ 准备发车）

四、 POST 请求

4.1 数据表单提交

4.2 添加请求头

4.3 提交json

4.4 普通文件上传

总结：

猜你喜欢

3.7 美女私房照爬取（准备发车）