用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万 - 代码天地

用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万

其他 2019-01-26 03:12:59 阅读次数: 0

Pornhub 是什么

Pornhub是一个小电影分享网站,2007年成立于加拿大蒙特利尔的Pornhub是全球最大的小电影分享类网站之一，被视为同行视为先驱，在Alexa上排名第80位（最高时曾跻身前30）。2010年，Pornhub被另一家神秘的公司——总部位于卢森堡的Manwin（后改名MindGeek）公司收购，和其旗下的Youporn、Redtube等同类网站组成了全球最大的小电影视频联盟。

本文使用技术

Python + Scrapy + MongoDB，每天爬取500万的数据以上的小电影数据。

免责声明：本项目旨在研究Scrapy Spider Framework和MongoDB数据库，它不能用于商业或其他个人意图。如果使用不当，那将是个人承担。

该项目主要用于抓取网站，这是世界上最大的网站。这样做可以检索视频标题，持续时间，mp4链接，封面网址和直接网站的网址。

该项目快速抓取PornHub.com，但结构简单。

该项目每天最多可以抓取5万个网站的视频，具体取决于您的个人网络。由于我的带宽慢，我的结果相对较慢。

爬虫一次请求10个线程，因此可以达到上述速度。如果您的网络性能更高，您可以每天请求更多线程并抓取更多视频。具体配置请参见[预启动配置]

环境配置

语言：python

python版本：python2.7

电脑配置：MacOS, 4G RAM

数据库： MongoDB

使用说明

下载源码

方式1

进入：https://github.com/xiyouMc/WebHubBot

点击下载源码，下载源码之后解答到一个文件夹

方式2

需要先安装好git,安装好之后

git clone https://github.com/xiyouMc/WebHubBot.git

就能将源码下载到本地

预启动配置

如果scrapy使用pip指令安装不上的话。建议使用anaconda进行安装，装好anaconda之后使用conda install scrapy指令会自动解决依赖进行安装

安装MongoDB并在没有配置的情况下启动

安装Python依赖模块：Scrapy，pymongo，请求或 pip install -r requirements.txt

根据需要修改配置，例如间隔时间，线程数等。

启动

cd WebHub

python quickstart.py

运行屏幕截图

数据库配饰说明

保存数据的数据库中的表是PhRes。以下是字段说明：

PhRes表：

video_title: 视频的标题，并且不能重复

link_url: 视频的网址

image_url: 视频的一些截图

video_duration: 视频的时长，单位为秒

quality_480p: 视频的清晰度与下载视频的地址

说明：源码视频书籍练习题等资料进群 696541369 即可免费获取

猜你喜欢

转载自blog.csdn.net/weixin_42209553/article/details/86646146

用Python爬虫爬取世界上最大的小电影网站，一天可爬取500万

小电影网站Python爬虫，一天可爬取500万以上的国产自拍视频！

Python爬虫分享(一天可爬取500万以上的视频)

python+request爬取电影网站

Python爬虫实战项目2 | 动态网站的抓取（爬取电影网站的信息）

Python爬虫实战之爬取电影网站全部视频(四)

Python爬虫爬取电影网站–独播库（小白实战）

Python爬虫爬取电影网站种子，让你以后再也不寂寞

爬取最有逼格的电影网站

python3.5爬取电影网站电影下载链接

Python练习【利用线程池爬取电影网站信息】

利用Python爬取500万以上的国产自拍小电影哦！

使用Python3+scrapy爬取某电影网站数万条数据到MySQL数据库！

使用golang+代理IP+goquery开发爬虫（爬取国外电影网站）

对猫眼电影网站电影top100的爬取

用Python爬取日本爱情电影，身体一天不如一天

Python爬虫之爬取全站的小电影

爬取某电影网站(未写完)(不会获取视频链接)

我用爬虫爬了几个电影网站的百度云资源

利用宝塔linux面板+苹果CMS搭建电影网站(二)网站的配置+电影资源的爬取上传

小伙用Python爬取日本爱情电影，身体一天不如一天

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

Python爬虫：爬取网站电影信息

vue+koa2即时聊天，实时推送比特币价格，爬取电影网站

Pytho爬虫-4567电影网电影信息爬取

Python爬虫，4567电影网电影信息爬取，二级页面处理方案

python简单爬虫爬取80s电影网所有电影

某个网站居然要冲VIP！限制访问？利用Python爬取最爱看的小电影

爬虫10-爬取飘花电影网

【Python3 爬虫】U09_爬取hao6v电影网

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)