还在考虑去哪找小视频?Python爬虫带你爬取数百万部国产小视频!

郑重声明:本项目旨在学习Scrapy爬虫框架和MongoDB数据库,不可用于其他不正当的事情与商业。若使用不当产生任何不好的后果,以及法律责任,均由个人承担!!!

 

在本次项目当中,我们将会用到PornHubBot项目,该项目主要是用来爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接。该项目爬取的是PornHub.com,它的结构简洁,运行速度超快。爬取PornHub视频的速度可以达到500万/天以上。这个爬取速度还因网络的情况来定。本项目还可多线程请求,如果网速跟的上,可以启动多线程请求,以达到更快的爬取速度,具体的配置方法见 [启动前配置]。

环境、架构

  • 开发语言: Python2.7
  • 开发环境: MacOS系统、4G内存
  • 数据库: MongoDB
  • 主要使用 scrapy 爬虫框架
  • 从Cookie池和UA池中随机抽取一个加入到Spider
  • start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装MongoDB,并启动,不需要配置
  • 安装Scrapy
  • 安装Python的依赖模块:pymongo、json、requests

根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

 

 

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

  • video_title:视频的标题,并作为唯一标识.
  • link_url:视频调转到PornHub的链接
  • image_url:视频的封面链接
  • video_duration:视频的时长,以 s 为单位
  • quality_480p: 视频480p的 mp4 下载地址

代码:GitHub:xiyouMc/WebHubBot

 

以上就是本文的全部内容了,由于代码过长,所以只给了链接,希望大家多多包涵,喜欢本文的小伙伴或者觉得本文对你有帮助可以点播关注或转发。

有需要Python学习资料,或者需要Python环境的老铁可以加群571799375,群里有免费发送给大家!(Python学习资料是2018年最新版)

本文来自网络,如有侵权,请联系小编删除!

 

猜你喜欢

转载自www.cnblogs.com/666fx/p/10173816.html