Python爬取B站弹幕的思路和流程

版权声明:作者原创,转载请附上文章链接。 https://blog.csdn.net/qq_36330643/article/details/81288903

做nlp项目,除了各大电商评论和微博数据,弹幕分析对于舆论和该视频的推广都是有帮助的,下面主要说说这么从B站爬取弹幕。

过程很简单,我们来看看:

1. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bilibili.com/+cid+.xml,即可得到该视频对应的cid。

比如:打开这个链接http://comment.bilibili.com/2015358.xml,就可以看到:

cid取法:在页面上F12,然后查找cid,该cid即为弹幕页的标识。

这样就可以找到该视频的cid,然后根据第一步拼成弹幕url,即可解析提取弹幕。

猜你喜欢

转载自blog.csdn.net/qq_36330643/article/details/81288903