Python爬虫分享(一天可爬取500万以上的视频) - 代码天地

Python爬虫分享(一天可爬取500万以上的视频)

其他 2018-06-08 05:17:37 阅读次数: 2

PornHubBot

源代码地址：https://github.com/xiyouMc/WebHubBot

PornHubBot项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接
项目爬的是PornHub.com，结构简单，速度飞快
爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络，所以相对慢一点。
10个线程同时请求，可达到如上速度。若个人网络环境更好，可启动更多线程来请求，具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

主要使用 scrapy 爬虫框架
从Cookie池和UA池中随机抽取一个加入到Spider
start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。
并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置
安装Scrapy
安装Python的依赖模块：pymongo、json、requests
根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

video_title:视频的标题,并作为唯一标识.link_url:视频调转到PornHub的链接 image_url:视频的封面链接 video_duration:视频的时长，以 s 为单位 quality_480p: 视频480p的 mp4 下载地址

链接：http://www.techug.com/post/pornhubbot.html

项目地址:https://pan.baidu.com/s/1oIDYkx_tTLRitsvsF-pvbQ

猜你喜欢

转载自blog.csdn.net/mynamepg/article/details/80430308

Python爬虫分享(一天可爬取500万以上的视频)

小电影网站Python爬虫，一天可爬取500万以上的国产自拍视频！

用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万

新浪微博python爬虫分享（一天可抓取 1300 万条数据）,超级无敌

python爬取小视频，看完身体一天不如一天！

新浪微博爬虫分享（一天可抓取 1300 万条数据）

Python爬取全民小视频网站视频，可爬取全站视频

测试Python爬虫极限，一天抓取100万张网页的酷炫操作！

利用Python爬取500万以上的国产自拍小电影哦！

python爬虫第一天

一天时间入门python爬虫，直接写一个爬虫案例，分享出来，很简单

知乎爬虫（scrapy默认配置下单机1小时可爬取60多万条数据）

Python爬虫学习第一天--利用正则表达式爬取图片

用Python爬取日本爱情电影，身体一天不如一天

闲来无事！我爬取了九一7万多条视频！身体是一天不如一天！

闲来无事！我爬取了7万多条视频！身体是一天不如一天！

Python爬虫记录第一天

Python爬虫学习第一天--环境准备

python爬虫自学第一天，全新的开始！

Python爬虫学习第一天

python 爬虫的第一天（认识 requests 库）

学习python爬虫第一天

Python 学习爬虫的第一天工具安装

工业级爬虫一天1000万+数据量

工业级微博爬虫一天1000万+数据量

如何让爬虫一天抓取100万张网页

python爬虫（爬取视频）

python爬虫爬取视频

小伙用Python爬取日本爱情电影，身体一天不如一天

datetime取前一天

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)