教你用 Python 看遍女神视界,美女咋越看越精神呢~(内含完整源码)

前言

嗨喽,大家好!这里是魔王

[课题]:

教你用 Python 看遍女神视界

[知识点]:

海量视频数据一键保存
html标签数据解析方法
re解析数据方法

请添加图片描述

[环境介绍]:

python  3.8
pycharm 2021.2
requests >>> pip install requests
parsel   >>> pip install parsel

+python安装包 安装教程视频
+pycharm 社区版 专业版 及 激活码免费

一. 分析网站(思路分析)

我们通过在网页链接前面+ view-source:https:.....
就可以查看到网页源代码, 我们在网页源代码当中可以找到 视频链接地址

二. 代码实现

1. 发送网络请求
2. 获取数据 网页源代码
3. 筛选数据 视频详情页地址
4. 发送网络请求
5. 获取数据 网页源代码
6. 筛选数据 视频播放地址
7. 访问视频播放地址
8. 获取视频二进制数据
9. 保存 视频数据

在这里插入图片描述在这里插入图片描述在这里插入图片描述

导入模块

import requests     # 发送网络请求
import re           # 正则模块
import parsel       # 解析数据模块

看看谁没有安装好模块请添加图片描述

1. 发送网络请求

url_1 = 'https://www.520mmtv.com/tag/xg.html'

response_1 = requests.get(url_1)

2. 获取数据 网页源代码

data_html_1 = response_1.text

3. 筛选数据 视频详情页地址

selector = parsel.Selector(data_html_1)
info_url_list = selector.css('.meta-title::attr(href)').getall()
title_url_list = selector.css('.meta-title::text').getall()
new_title_list = [i for i in title_url_list if i != ' ']
# zip: 我们需要把视频链接 标题一起进行循环
for zip_data in zip(info_url_list, new_title_list):
    url = zip_data[0]
    # 1. 发送网络请求
    response = requests.get(url=url)
    # <Response [200]>: 发送请求成功响应
    # 2. 获取数据 网页源代码
    data_html = response.text
    # 3. 筛选数据 视频播放地址
    # 第一个参数匹配规则 第二个我们要在哪里匹配
    video_url = re.findall('url: "(.*?)",', data_html)[0]
    print(video_url)
    # 4. 访问视频播放地址
    # 5. 获取视频/音频/图片 二进制数据
    video_data = requests.get(video_url).content
    title = zip_data[1]
    # 6. 保存 视频数据
    with open(f'video\\{
      
      title}.mp4', mode='wb') as f:
        f.write(video_data)
    print(title, '爬取成功!!!')

好了,我的这篇文章写到这里就结束啦!

有更多建议或问题可以评论区或私信我哦!一起加油努力叭(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

猜你喜欢

转载自blog.csdn.net/python56123/article/details/122089874