用python爬取B站弹幕并绘制词云

最近在B站发现一个弹琵琶的小姐姐,真的是人美歌甜啊啊啊,所以打算爬取她的视频来分析弹幕同时制作词云。

查找相关信息之后发现,爬取B站弹幕的API接口有两个,分别是

https://api.bilibili.com/x/v1/dm/list.so?oid=cid
http://comment.bilibili.com/+cid+.xml

后面需要加上需要爬取的视频文件的cid。B站的每个视频都有自己独特的av号,bv号和cid。通过av号和bv号可以确定视频的地址,cid可以确定弹幕文件的地址。

任意打开一个弹幕文件,例如

http://comment.bilibili.com/197603144.xml

在这里插入图片描述
我们可以发现弹幕就在这个网页文件中。

  • 获取B站视频的cid
    打开B站,任意找一个视频,右键单击鼠标,点击“检查”。

猜你喜欢

转载自blog.csdn.net/weixin_46530492/article/details/107190708