小电影网站Python爬虫，一天可爬取500万以上的国产自拍视频！ - 代码天地

小电影网站Python爬虫，一天可爬取500万以上的国产自拍视频！

其他 2018-10-09 22:30:32 阅读次数: 0

在这里插入图片描述
声明：本项目旨在学习Scrapy爬虫框架和MongoDB数据库，不可使用于商业和个人其他意图。若使用不当，均由个人承担。

PornHubBot

PornHubBot项目主要是爬取全球最大的小电影网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接

项目爬的是PornHub.com，结构简单，速度飞快

爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络，所以相对慢一点。

10个线程同时请求，可达到如上速度。若个人网络环境更好，可启动更多线程来请求，具体配置方法见 [启动前配置]

有需要Python学习资料的小伙伴吗?小编整理一套Python资料和PDF，感兴趣者可以关注薇信工宗号：程序员大牛（或在评论区留言）反正闲着也是闲着呢，不如学点东西啦！

环境、架构

开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

主要使用 scrapy 爬虫框架

从Cookie池和UA池中随机抽取一个加入到Spider

start_requests 根据 PorbHub 的分类，启动了5个Request，同时对五个分类进行爬取。

并支持分页爬取数据，并加入到待爬队列。

使用说明

启动前配置

安装MongoDB,并启动，不需要配置

安装Scrapy

安装Python的依赖模块：pymongo、json、requests

根据自己需要修改 Scrapy 中关于间隔时间、启动Requests线程数等得配置

启动

python PornHub/quickstart.py

运行截图

在这里插入图片描述

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表：

video_title:视频的标题,并作为唯一标识.

link_url:视频调转到PornHub的链接

image_url:视频的封面链接

video_duration:视频的时长，以 s 为单位

quality_480p: 视频480p的 mp4 下载地址

代码：GitHub：xiyouMc/WebHubBot

在这里相信有许多想要学习Python的同学，大家可以+下Python学习分享裙：叁零肆+零伍零+柒玖玖，即可免费领取一整套系统的 Python学习教程

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_43058731/article/details/82780002

小电影网站Python爬虫，一天可爬取500万以上的国产自拍视频！

用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万

利用Python爬取500万以上的国产自拍小电影哦！

Python爬虫分享(一天可爬取500万以上的视频)

Python爬虫实战之爬取电影网站全部视频(四)

Python爬虫实战项目2 | 动态网站的抓取（爬取电影网站的信息）

Python爬虫爬取电影网站–独播库（小白实战）

Python爬虫爬取电影网站种子，让你以后再也不寂寞

python+request爬取电影网站

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

python3.5爬取电影网站电影下载链接

爬取某电影网站(未写完)(不会获取视频链接)

你们男生的小电影网站哪找的

Web --- 电影网站

爬取最有逼格的电影网站

Python练习【利用线程池爬取电影网站信息】

python爬虫——requests抓取某电影网站top100

Python 爬虫实现：抓取电影网站信息并入库

使用Python3+scrapy爬取某电影网站数万条数据到MySQL数据库！

Python丨Django实现微电影网站

Flask开发微电影网站(一)

使用golang+代理IP+goquery开发爬虫（爬取国外电影网站）

Flask搭建微电影网站

freekan电影网站制作教程

Django实现微电影网站

分享几个看电影网站

高质量电影网站

Javaweb实现电影网站

Flask电影网站项目

java在线电影网站

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)