爬取梨视频 - 代码天地

爬取梨视频

其他 2020-04-28 22:09:22 阅读次数: 0

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import re
import random
from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool

'''线程池版'''
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}


def seveData(data):
    vedio_name = str(random.randint(1, 99999)) + '.mp4'
    with open(vedio_name, 'wb') as f1:
        f1.write(data)
        print(vedio_name + '下载成功')


def download(url):
    vedio_urls = []
    response_text = requests.get(url=url, headers=headers).text
    # 我们需要的srcUrl="https://video.pearvideo.com/mp4/adshort/20200207/cont-1649482-14880359_adpkg-ad_hd.mp4"
    vedio_url = re.findall('srcUrl="(.*?)"', response_text, re.S)[0]
    # 获取视频的url追加到列表
    vedio_urls.append(vedio_url)
    # 使用线程池对vedio_urls列表中的url进行视频数据的下载
    pool = Pool(20)
    # 返回视频的二进制数据
    data_list = pool.map(lambda link: requests.get(url=link, headers=headers).content, vedio_urls)
    pool.map(seveData, data_list)


if __name__ == '__main__':
    url = 'https://www.pearvideo.com/popular'
    response = requests.get(url=url, headers=headers)
    page_text = response.text
    # 解析
    bs = BeautifulSoup(page_text, 'lxml')
    li_list = bs.select('.popular-list > li')
    for li in li_list:
        data_url = 'https://www.pearvideo.com/' + li.a['href']
        download(data_url)

猜你喜欢

转载自www.cnblogs.com/HByang/p/12797531.html

爬取梨视频

python爬虫实践——爬取“梨视频”

python之梨视频网站视频爬取及下载

requests爬取梨视频主页所有视频

爬取梨视频主页所有视频

python爬取小视频——梨视频

二十二、爬取梨视频官网的视频

python的多线程异步爬取梨视频(原创）

Python3 多线程爬取梨视频

使用较高性能的线程池_爬取梨视频

梨视频，进程池、线程池爬取

基于multiprocessing.dummy线程池爬取梨视频的视频信息

爬虫入门实战第一站——梨视频视频爬取

python基础day3-爬取梨视频,2019-6-25

Python每日爬虫案例：爬取梨视频网站，下载完整版小视频并保存本地

python批量爬取梨视频（一步一步实现，适合新手入门）

python爬虫-梨视频-短视频爬取下载（原创）

爬取西瓜视频

爬取uputoo视频

02 爬取视频

爬取视频

scrapy 爬取视频

爬取VIP视频

python爬取视频

腾讯视频爬取评论

python爬取视频代码

python 爬取头条视频

python爬虫（爬取视频）

爬取校花网的视频

爬取腾讯vip视频

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)