冰冰B站视频弹幕爬取原理解析 - 代码天地

冰冰B站视频弹幕爬取原理解析

其他 2021-01-12 10:06:18 阅读次数: 0

上篇介绍了B站评论的获取方法和数据分析过程，本次将详细讲解B站弹幕爬取原理解析，这里讲解最简单的获取b站弹幕的方法，但也有局限性，仅仅获取了当日的弹幕，但当我再次尝试后，403了，以后再尝试改进把。以==冰冰第一条b站视频为例==为例

可以先看看这个爬取冰冰B站千条评论，看看大家说了什么

文章目录

原理

概念

cid : 爬取弹幕需要的id号，可以由BV号通过API接口获得

步骤

以==冰冰第一条b站视频为例==为例

视频链接：https://www.bilibili.com/video/BV1vy4y1i7bS，得到BV号=BV1vy4y1i7bS
BV转cid,浏览器输入：https://api.bilibili.com/x/player/pagelist?bvid=BV1vy4y1i7bS&jsonp=jsonp,得到：cid=273039189。由cid得到当日条数小于等于1000的弹幕
浏览器输入https://api.bilibili.com/x/v1/dm/list.so?oid=273039189
该页面为XML格式，python可通过xmltodict库解析XML格式，在提取出来相应的弹幕文字，就可以进行词频分析，得到词云。

实际案例

获取视频cid

    url = "https://api.bilibili.com/x/player/pagelist?bvid="+str(bvid)+"&jsonp=jsonp"
    response = requests.get(url)
    dirt=json.loads(response.text)
    cid=dirt['data'][0]['cid']
    #cid号 已得到
    nowDMget(cid)     #调用爬取弹幕函数

爬取当前的弹幕函数

def nowDMget(cid): 
    url = "https://api.bilibili.com/x/v1/dm/list.so?oid="+str(cid)
    response = requests.get(url)
    response.encoding = 'utf-8'
    data = parse(response.text)  
    liat_DM=data['i']['d']
    print(len( liat_DM))
    for i in range(len( liat_DM)):
        print(liat_DM[i]['#text'])

词云图

在这里插入图片描述

推荐阅读：

此次的获取方法肯定不是最优的，抛砖引玉。希望大家可以把更好的方法打在评论，或私信给我

到这里就结束了，如果对你有帮助你，欢迎点赞关注，你的点赞对我很重要

猜你喜欢

转载自blog.csdn.net/qq_45176548/article/details/112235146

冰冰B站视频弹幕爬取原理解析

爬取b站弹幕

用Python爬取B站视频弹幕

爬虫实战---爬取B站视频弹幕（春物）

爬取b站热门视频的弹幕，并进行弹幕分析

如何爬取B站弹幕

爬虫爬取b站弹幕方法

爬取b站歌曲的弹幕

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

爬取B站视频

爬取钉钉在B站卑微道歉视频弹幕，做成词云

Python爬虫爬取B站视频弹幕 + 绘制词云

python爬取B站视频弹幕分析并制作词云

爬取B站up主视频弹幕并生成词云图（2020年5月）

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

Python爬虫新手入门教学（五）：爬取B站视频弹幕

爬虫大作业-爬取B站弹幕

Python爬取B站弹幕的思路和流程

python爬取B站弹幕学习笔记

B站评论(含折叠的)与弹幕爬取

爬取B站弹幕并且制作词云

用python爬取B站弹幕并绘制词云

卧槽！原来爬取B站弹幕这么简单

爬取b站《守护解放西》弹幕

Python爬取B站冰冰评论看看大家说了什么

爬取冰冰B站千条评论，看看大家说了什么！

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

python3网络爬虫--最新爬取B站视频弹幕 so文件（附源码）

爬取b站排行视频

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)