爬取b站歌曲的弹幕 - 代码天地

爬取b站歌曲的弹幕

其他 2021-11-25 02:50:13 阅读次数: 0

先来放上b站的《染色体》链接：https://www.bilibili.com/video/BV1Xf4y1A75e

参考博客：https://blog.csdn.net/weixin_29130369/article/details/112744783

b站弹幕的爬取

通过Chrome开发者工具里面的Network页面，可以找到B站弹幕数据的接口。

爬取b站弹幕数据的API：https://api.bilibili.com/x/v1/dm/list.so?oid=XXX
- 后面有个oid，oid后面是一串数字，不同的网页有着不同的数字串
- 怎样获取oid？首先要获取cid。

【cid的获取】

打开浏览器控制台，点击network：找到下面这个，即这个歌曲的cid就是404210194

屏幕截图 2021-10-04 105724

这样就可以的到弹幕的真正地址：https://api.bilibili.com/x/v1/dm/list.so?oid=404210194

只要解析这个网址，解析网页后就可以获取我们想要的数据了

【代码】：

import requests
import json
import chardet
# import refrom
import pprint
import re

#1.根据bvid请求得到cid
def get_cid():
    url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1Xf4y1A75e&jsonp=jsonp'
    res = requests.get(url).text
    json_dict = json.loads(res)
    # pprint(json_dict)
    return json_dict["data"][0]["cid"]

#2.根据cid请求弹幕，解析弹幕得到最终的数据
def get_data(cid):
    final_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=' + str(cid)
    final_res = requests.get(final_url)
    final_res.encoding = chardet.detect(final_res.content)['encoding']
    final_res = final_res.text
    pattern = re.compile('(.*?)')
    data = pattern.findall(final_res)
    # pprint(final_res)
    return data

#3.保存弹幕列表
def save_to_file(data):
    with open("dan_mu.txt",mode="w",encoding="utf-8") as f:
        for i in data:
            f.write(i)
            # f.write("\n")

cid = get_cid()
data = get_data(cid)
save_to_file(data)

结果如下：

猜你喜欢

转载自blog.csdn.net/weixin_48931875/article/details/121301663

爬取b站歌曲的弹幕

爬取b站弹幕

如何爬取B站弹幕

爬虫爬取b站弹幕方法

爬虫大作业-爬取B站弹幕

Python爬取B站弹幕的思路和流程

python爬取B站弹幕学习笔记

用Python爬取B站视频弹幕

B站评论(含折叠的)与弹幕爬取

爬取B站弹幕并且制作词云

爬虫实战---爬取B站视频弹幕（春物）

用python爬取B站弹幕并绘制词云

卧槽！原来爬取B站弹幕这么简单

冰冰B站视频弹幕爬取原理解析

爬取b站《守护解放西》弹幕

爬取b站热门视频的弹幕，并进行弹幕分析

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

使用Python3+requests+re爬取B站弹幕

爬取钉钉在B站卑微道歉视频弹幕，做成词云

使用python爬取B站弹幕和三连

利用python爬取b站弹幕和统计(附保存)

Python爬虫爬取B站视频弹幕 + 绘制词云

爬取B站up主视频弹幕并生成词云图（2020年5月）

python爬取B站视频弹幕分析并制作词云

Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

Python自动化爬取b站实时弹幕并制作WordCloud词云

（异步爬虫）今个儿清闲，来爬取B站弹幕（不限量）

Python爬虫新手入门教学（五）：爬取B站视频弹幕

Python爬取B站TES VS FNC 八强赛弹幕

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)