如何爬取B站弹幕 - 代码天地

如何爬取B站弹幕

其他 2019-03-01 21:28:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_33612918/article/details/78287436

前言

主要记录自己完成爬虫的思路：从how to do到what to do
这是一个拿 python 练手的项目，虽说是入门级，但其余爬虫也万变不离其宗￣へ￣
源代码地址 Github：bili-danmu

过程

1. 弹幕究竟是什么玩意

首先，让我们看看B站客户端是如何接收到弹幕的
这就需要让我们看看网页的源代码了

随便打开一个视频网页如下：

那么，弹幕是怎么加载进网页面的呢？
接下来让我们回忆一下http请求的过程：

0. 3次握手建立TCP连接
1. 浏览器得到页面，也就是html文件
2. 根据html文件里如<script>标签或<img>标签等继续像服务器请求相应的资源

可以想象，弹幕文件应该是在浏览器得到页面后像服务器请求得来的，也就是说，它隐藏在浏览器下载的文件中！不妨先假想一下：弹幕文件应该是一个JSON格式或者是XML格式的文件 这样才方便应用与管理

右键审查元素，打开网络面板，分析浏览器抓取下来的包，其中有一个文件引起了我们的注意：

这是一个xml文件，也是我们猜测的弹幕格式之一，查看它的内容：

很惊喜的发现，这不正是弹幕文件吗！￣へ￣

2. 如何得到弹幕文件

查看弹幕文件的文件名：

全称http://comment.bilibili.com/6154070.xml 且看资源标识符6154070.xml 这应该便是唯一标志弹幕文件的文件名了

关于6154070.xml 这个文件名是如何来的？这只有在网页源代码中一探究竟。右键查看网页源代码，查找与6154070.xml 有关的字段：

但现在我们还是不能放心，对比其他视频后才终于发现，原来正是这个<script> 标签内的属性决定了弹幕文件名

分析完毕，接下来就是最快的编码工作了￣へ￣

如何编写爬虫

其实分析到了这里，代码编写也是水到渠成的事了
我选择了 requests 与 lxml 这种轻量级的库来编写
Talk is cheap. Show me the code. 废话不多说，完整代码请看 Github：bili-danmu

结语

对于爬虫来说，往往分析页面花费的时间大于编写代码的时间。总而言之，大概就是这么个流程，依葫芦画瓢也能搞定大部分网站内容的爬取￣へ￣

猜你喜欢

转载自blog.csdn.net/qq_33612918/article/details/78287436

如何爬取B站弹幕

爬取b站弹幕

爬虫爬取b站弹幕方法

爬取b站歌曲的弹幕

如何去使用Python爬虫来爬取B站的弹幕数据？

爬虫大作业-爬取B站弹幕

Python爬取B站弹幕的思路和流程

python爬取B站弹幕学习笔记

用Python爬取B站视频弹幕

B站评论(含折叠的)与弹幕爬取

爬取B站弹幕并且制作词云

爬虫实战---爬取B站视频弹幕（春物）

用python爬取B站弹幕并绘制词云

卧槽！原来爬取B站弹幕这么简单

冰冰B站视频弹幕爬取原理解析

爬取b站《守护解放西》弹幕

爬取b站热门视频的弹幕，并进行弹幕分析

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

如何爬取B站搜索结果

使用Python3+requests+re爬取B站弹幕

爬取钉钉在B站卑微道歉视频弹幕，做成词云

使用python爬取B站弹幕和三连

利用python爬取b站弹幕和统计(附保存)

Python爬虫爬取B站视频弹幕 + 绘制词云

爬取B站up主视频弹幕并生成词云图（2020年5月）

python爬取B站视频弹幕分析并制作词云

Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

Python自动化爬取b站实时弹幕并制作WordCloud词云

（异步爬虫）今个儿清闲，来爬取B站弹幕（不限量）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)