如何利用Python快速爬取B站全站视频信息 - 代码天地

如何利用Python快速爬取B站全站视频信息

其他 2018-11-05 05:11:34 阅读次数: 0

B 站我想大家都熟悉吧，其实 B 站的爬虫网上一搜一大堆。不过纸上得来终觉浅，绝知此事要躬行，我码故我在。最终爬取到数据总量为 760万条。

准备工作

首先打开 B 站，随便在首页找一个视频点击进去。常规操作，打开开发者工具。这次是目标是通过爬取 B 站提供的 api 来获取视频信息，不去解析网页，解析网页的速度太慢了而且容易被封 ip。

勾选 JS 选项，F5 刷新

找到了 api 的地址

复制下来，去除没必要的内容，得到 https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 ，用浏览器打开，会得到如下的 json 数据

动手写码

好了，到这里代码就可以码起来了，通过 request 不断的迭代获取数据，为了让爬虫更高效，可以利用多线程。

核心代码

result = []
req = requests.get(url, headers=headers, timeout=6).json()
time.sleep(0.6) # 延迟，避免太快 ip 被封
try:
data = req['data']
video = Video(
data['aid'], # 视频编号
data['view'], # 播放量
data['danmaku'], # 弹幕数
data['reply'], # 评论数
data['favorite'], # 收藏数
data['coin'], # 硬币数
data['share'] # 分享数
)
with lock:
result.append(video)
except:
pass

迭代爬取

urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)
for i in range(10000)]
with futures.ThreadPoolExecutor(32) as executor: # 多线程
executor.map(run, urls)

不要一次性爬取全部链接，我是利用两个进程，这样就是多进程+多线程了。一个进程一次大概爬取 50w 条数据。100w 条数据的话大概一个多小时吧。分多次爬取，分别将数据保存为不同的文件名，最后再汇总。

运行的效果大概是这样的，数字是已经已经爬取了多少条链接，其实完全可以在一天或者两天内就把全站信息爬完的。

至于爬取后要怎么处理就看自己爱好了，我是先保存为 csv 文件，然后再汇总插入到数据库。

汇总的 csv 文件

数据库表

由于这些内容是我在几个月前爬取的，所以数据其实有些滞后了。

数据总量

查询播放量前十的视频

查询回复量前十的视频

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/83687800

如何利用Python快速爬取B站全站视频信息

python爬取b站APP视频信息（通过fiddler抓包工具）

python爬取b站排行榜视频信息

Python 爬取b站热门视频信息并导入Excel表格

Python爬取B站排行榜前100视频信息

B站视频信息爬虫python

python获取B站视频信息

python 爬取bilibili 视频信息

分享一个B站爬虫(爬取视频信息相关数据)

分享一个B站爬虫(爬取视频信息相关数据)

爬B站排行前一百视频信息

Python爬取 "抖音" App短视频信息

python爬取豆瓣视频信息代码

Python爬虫教你爬取视频信息

python爬取B站视频

爬取B站视频

爬虫实战系列(二)：利用Selenium自动获取B站建国同志视频信息

Python Spider学习笔记（一）：爬取B站视频基本信息

利用Python爬取B站摄影栏目的图片

分析Ajax爬取B站python视频

用Python爬取B站视频弹幕

爬取b站排行视频

简单的爬取B站视频评论

B站分片视频爬取

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取

如何爬取B站弹幕

如何爬取B站搜索结果

【爬虫】爬取B站UP的所有视频细节信息（通过UP名字）

Python爬虫--爬取哔哩哔哩（B站）短视频平台视频

python 爬取某站视频

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)