还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！

其他 2018-12-25 14:57:58 阅读次数: 0

郑重声明：本项目旨在学习Scrapy爬虫框架和MongoDB数据库，不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果，以及法律责任，均由个人承担！！！

在本次项目当中，我们将会用到PornHubBot项目，该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com，它的结构简洁，运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求，如果网速跟的上，可以启动多线程请求，以达到更快的爬取速度，具体的配置方法见 [启动前配置]。

环境、架构

开发语言: Python2.7
开发环境: MacOS系统、4G内存
数据库: MongoDB
主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置
安装Scrapy
安装Python的依赖模块：pymongo、json、requests

根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表：

video_title:视频的标题,并作为唯一标识.
link_url:视频调转到PornHub的链接
image_url:视频的封面链接
video_duration:视频的时长，以 s 为单位
quality_480p: 视频480p的 mp4 下载地址

代码：GitHub：xiyouMc/WebHubBot

以上就是本文的全部内容了，由于代码过长，所以只给了链接，希望大家多多包涵，喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料，或者需要Python环境的老铁可以加群571799375，群里有免费发送给大家！（Python学习资料是2018年最新版）

本文来自网络，如有侵权，请联系小编删除！

猜你喜欢

转载自www.cnblogs.com/666fx/p/10173816.html

还在考虑去哪找小视频？Python爬虫带你爬取数百万部国产小视频！

python爬取小视频

python爬取小视频——梨视频

快手的小视频爬取

批量爬取app小视频

Python爬虫新手入门教学（十六）：爬取好看视频小视频

python_requests ~爬虫~小视频~~~

python(一爬虫---简单小视频)

Python爬虫新手入门教学（十七）：爬取yy全站小视频

Python爬取全民小视频网站视频，可爬取全站视频

AV小视频

全民小视频

XP的小视频

2019年国产小视频

Java爬取某姐的小视频

简单爬取某Y上的小视频

如何爬取抖音小视频

Python每日爬虫案例：爬取梨视频网站，下载完整版小视频并保存本地

小视频去重项目思考

Python2 根据知乎小视频的url爬取视频保存到本地

爬虫项目实战九：爬取6间房小视频

小视频-上传视频

python爬虫下载小视频和小说(基础)

只要网速够快，小视频看完一个删一个，任性！Python爬取小视频

python爬取小视频，看完身体一天不如一天！

Python用requests爬取一个小视频（蛮详细）

Python每日一练(9)-批量爬取B站小视频

Python爬取六间房小姐姐自拍小视频

40行代码教你利用Python网络爬虫批量抓取小视频

爬取小视频网站视频并下载——场库网站视频批量下载

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)