python爬虫爬取校花网视频 - 代码天地

python爬虫爬取校花网视频

其他 2018-09-05 22:11:40 阅读次数: 0

import re
import requests
import hashlib
import time

# respose=requests.get('http://www.xiaohuar.com/v/')
# # print(respose.status_code)# 响应的状态码
# # print(respose.content)  #返回字节信息
# # print(respose.text)  #返回文本内容
# urls=re.findall(r'class="items".*?href="(.*?)"',respose.text,re.S)  #re.S 把文本信息转换成1行匹配
# url=urls[5]
# result=requests.get(url)
# mp4_url=re.findall(r'id="media".*?src="(.*?)"',result.text,re.S)[0]
#
# video=requests.get(mp4_url)
#
# with open('D:\\pachong\\a.mp4','wb') as f:
#     f.write(video.content)
#


def get_index(url):
    respose = requests.get(url)
    if respose.status_code==200:
        return respose.text

def parse_index(res):
    urls = re.findall(r'class="items".*?href="(.*?)"', res,re.S)  # re.S 把文本信息转换成1行匹配
    return urls


def get_detail(urls):
    for url in urls:
        if not url.startswith('http'):
            url='http://www.xiaohuar.com%s' %url
        result = requests.get(url)
        if result.status_code==200 :
            mp4_url_list = re.findall(r'id="media".*?src="(.*?)"', result.text, re.S)
            if mp4_url_list:
                mp4_url=mp4_url_list[0]
                print(mp4_url)
                save(mp4_url)


def save(url):
    video = requests.get(url)
    if video.status_code==200:
        m=hashlib.md5()
        m.update(url.encode('utf-8'))
        m.update(str(time.time()).encode('utf-8'))
        filename=r'%s.mp4'% m.hexdigest()
        filepath=r'F:\\shinpin/%s'%filename
        print(filepath)
        with open(filepath, 'wb') as f:
            f.write(video.content)

def main():
    for i in range(5):
        res1 = get_index('http://www.xiaohuar.com/list-3-%s.html'% i )
        res2 = parse_index(res1)
        get_detail(res2)

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/jerryyang_2017/article/details/82259530

python爬虫爬取校花网视频

爬虫----爬取校花网视频

Python-爬取校花网视频(单线程和多线程版本)

python爬虫:爬取慕课网视频

爬取校花网的视频

python爬虫入门练习——爬酷6网视频

python爬虫（爬取视频）

python爬虫爬取视频

python爬取校花网的图片

Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

Python爬虫：正则表达式爬取校花网

Python爬虫福利第一弹---爬取校花校草吧图片

爬取校花网

校花网爬取

day01 python从入门到放弃----爬取某H网视频

爬取校花网校花图片

校花网爬取校花照片

三个Python爬虫版本，带你以各种方式爬取校花网，轻松入门爬虫

轻松入门Python爬虫，三个爬虫版本，带你以各种方式爬取校花网

Python爬虫爬取视频的详细介绍

Python爬虫-视频爬取示例

Python爬虫：爬取网站视频

python爬虫实践——爬取“梨视频”

python 爬虫入门--热点视频爬取

Python爬取校花网，好看的妹子真多

pycharm 爬取校花网

python爬虫——校花网

分分钟几万上下！用Python爬取包图网视频（附代码）切勿商用！

爬取校花网大学校花代码

爬虫网页解析之css用法及实战爬取中国校花网

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)