day01 requests基本使用 - 代码天地

day01 requests基本使用

其他 2019-07-01 15:01:40 阅读次数: 0

# import requests

'''
爬取校花网视频：
    一.请求url
        htt://www.xiaohuar.com/v/

    二.请求方式
        GET

    三.请求头信息
        User-Agent：用户代理
'''
import time
import requests
# 爬虫三部曲
# 1.发送请求
def get_page(url):
    response = requests.get(url)
    return response
# 2.解析数据
import re
def parse_index(html):
    # findall匹配所有
    # re.findall('正则匹配规则','匹配文本','匹配模式')
    # re.S:对全部文本进行搜索匹配
    detail_urls = re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)

    # for detail_url in detail_urls:
    #     print(detail_url)
    return detail_urls
# 解析详细页
def parse_detail(html):
    movie_url = re.findall('<source src="(.*?)">',html,re.S)
    # print(movie_url）
    if movie_url:
        return movie_url[0]

# 保存数据
import uuid
# uuid.uuid4()根据时间戳生成一段世界上唯一的字符串
# main + 回车
def save_video(content):
    with open(f'{uuid.uuid4()}.mp4','wb')as f:
        f.write(content)
        print('视频下载完毕...')
#测试用例：
if __name__ == '__main__':
    for line in range(6):
        url = f'http://www.xiaohuar.com/list-3-{line}.html'

        # 发送请求
        response=get_page(url)
        # print(response)
        # # 返回响应状态码
        # print(response.status_code)

        # 返回响应文件
        # print(response.text)

        # 解析主页页面
        detail_urls = parse_index(response.text)

        # 循环遍历详情页url
        for detail_url in detail_urls:
            # print(detail_url)
            # 往每一个详情页发送请求
            detail_res = get_page(detail_url)
            # print(response.text)

            #解析详情页获取视频url
            movie_url = parse_detail(detail_res.text)

            # 判断视频url存在则打印
            if movie_url:
                print(movie_url)

                # 往视频url发送请求获取视频二进制流
                movie_res = get_page(movie_url)
                # 把视频的二进制流传给save_video函数去保存到本地
                save_video(movie_res.content)

　　

猜你喜欢

转载自www.cnblogs.com/zaccheo/p/11114015.html

day01 requests基本使用

Tomcat的使用 day01

Day01 MarkDown的使用

Day01 java基本语句

爬虫day01 基本介绍，请求

JavaSE[笔记][基本语法][day01]

01 requests基本使用

【小白教程】day01快速掌握HTML基本用法

MySql学习day01：数据库的基本操作

Day01:API文档 / 字符串基本操作

day01 计算机基本原理

day01计算机基本原理

SpringMVC框架学习 day01 SpringMVC的基本概念

Django 2随便使用笔记-Day01

day01 关于html常用标签的使用

day01 urllib.request 的简单使用

Day01 使用Spring Cloud搭建服务注册中心

Spring框架——day01原理图和基本配置

Nodejs学习笔记 day01——创建服务器和npm的基本操作

微信小程序开发day01——小程序的页面基本认识和属性

Sklearn机器学习基础（day01基本数据处理）

淘淘商城-day01[项目介绍，搭建maven工程，SVN使用]

SSM框架day01——020——动态代理模式使用要求

Python day01—Sublime Text3与Pycharm的简单使用

SpringMVC框架学习 day01 SpringMVC的入门案例与RequestMapping注解使用

微服务实战学成在线day01——（三）Swagger和Postman的使用

Hibernate简介、hibernate的简单使用、常见问题、hibernate的API详解-day01

day01：Python第一天print()函数使用方法

python day01

day01

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)