python利用scrapy短短50行代码下载整站短视频 - 代码天地

python利用scrapy短短50行代码下载整站短视频

其他 2019-04-12 16:59:50 阅读次数: 0

python的优雅之处在于能够让开发者专注于业务逻辑，花更少的时间在枯燥的代码编写调试上。scrapy无疑完美诠释了这一精神。

开发爬虫的一般步骤是：

1、确定要爬取的数据（item）

2、找到数据所在页面的url

3、找到页面间的链接关系，确定如何跟踪（follow）页面

那么，我们一步一步来。

既然是使用scrapy框架，我们先创建项目：

scrapy startproject DFVideo

紧接着，我们创建一个爬虫：

scrapy genspider -t crawl DfVideoSpider eastday.com

这是我们发现在当前目录下已经自动生成了一个目录：DFVideo

目录下包括如图文件：

spiders文件夹下，自动生成了名为DfVideoSpider.py的文件。

爬虫项目创建之后，我们来确定需要爬取的数据。在items.py中编辑：

接下来，我们需要确定视频源的url，这是很关键的一步。

现在许多的视频播放页面是把视频链接隐藏起来的，这就使得大家无法通过右键另存为，防止了视频别随意下载。

但是只要视频在页面上播放了，那么必然是要和视频源产生数据交互的，所以只要稍微抓下包就能够发现玄机。

这里我们使用fiddler抓包分析。

发现其视频播放页的链接类似于：video.eastday.com/a/180926221513827264568.html?index3lbt

视频源的数据链接类似于：mvpc.eastday.com/vyule/20180415/20180415213714776507147_1_06400360.mp4

有了这两个链接，工作就完成了大半：

在DfVideoSpider.py中编辑

至此，一个简单但强大的爬虫便完成了。

如果你希望将视频的附加数据保存在数据库，可以在pipeline.py中进行相应的操作，比如存入mongodb中：

当然，你需要在setting.py中将pipelines打开：

执行结果展示

视频文件：

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/89239264

python利用scrapy短短50行代码下载整站短视频

Python爬虫实战：利用scrapy，短短50行代码下载整站短视频

50行Python代码轻松爬取抖音APP短视频，用心你就能学会

【python】15行代码下载快手无水印短视频

【python】15行代码下载抖音无水印短视频

16行Python代码批量采集短视频音乐素材❤

n行Python代码系列：两行代码去除抖音快手短视频尾部Logo

利用Python的scrapy下载图片

原创 | sig算法揭秘---50行代码下载5000万小姐姐自拍小视频

利用python下载视频

50行Python代码实现视频中物体颜色识别和跟踪（必须以红色为例）

利用几行Python代码轻松搞定视频下载

50行Python代码实现人脸检测

Python 动态加载并下载"梨视频"短视频

python爬虫-梨视频-短视频爬取下载（原创）

短视频下载软件

python岂止于强大，22行代码实现资源大咖，抓取整站最新资源！

python岂止于强大, 22行代码实现资源大咖, 抓取整站最新资源!

利用Python下载网页视频

Python爬虫：短视频平台无水印下载（上）

40行代码教你利用Python网络爬虫批量抓取小视频

Python：50行代码实现下载小说，图片章节可自动识别转文字保存...

40行Python代码利用DOI下载英文论文（2022.3.7）

【行研报告】进击的新势力·95后短视频冲浪与消费图鉴—附下载链接

python的一个小应用：1行代码批量下载B站视频

如何用python批量下载这些视频？只需 15 行代码，即可轻松实现

100行代码搞定短视频App，终于可以和美女合唱了。

50行Python代码构建小型区块链

50 行 Python 代码，带你追到女神

50行python代码看尽《白蛇 · 缘起》短评数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)