Python爬虫【实战篇】bilibili视频弹幕提取 - 代码天地

Python爬虫【实战篇】bilibili视频弹幕提取

其他 2019-01-11 17:44:37 阅读次数: 0

两个重要点

1.获取弹幕的url是以 .xml 结尾

2.弹幕url的所需参数在视频url响应的 javascript 中

先看代码

import requests
from lxml import etree
import re

# 使用手机UA
headers = {
    "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
}
# 视频url
video_url = "https://m.bilibili.com/video/av37834086.html"
html = requests.get(url=video_url, headers=headers).content.decode('utf-8')
# 获取弹幕url的参数
cid = re.findall(r"comment: '//comment.bilibili.com/' \+ (.*?) \+ '.xml',", html)

url = "https://comment.bilibili.com/" + cid[0] + ".xml"
print(url)
response = requests.get(url, headers=headers)
html = response.content

xml = etree.HTML(html)

# 提取数据
str_list = xml.xpath("//d/text()")
# 写入文件
with open('bibi_xuxubaobao.txt', 'w', encoding='utf-8') as f:
    for line in str_list:
        f.write(line)
        f.write('\n')

先找到弹幕的url，以.xml结尾，所以先找到这串数字所在的位置，并获取这串数字发起第二次请求

而这串数字就在第一次请求的响应的JavaScript中，可以通过 re 正则表达式进行提取

接下来的工作就是获取弹幕url返回的所有弹幕数据，然后对响应进行数据处理。

代码示例中使用的是 lxml 进行获取。接着就是保存到个人本地文件中了

猜你喜欢

转载自www.cnblogs.com/tangkaishou/p/10256335.html

Python爬虫【实战篇】bilibili视频弹幕提取

Python爬虫下载Bilibili番剧弹幕

python爬虫教程：爬取Bilibili弹幕过程解析

Python爬虫之bilibili视频弹幕爬取并保存为JSON格式（详解分析+代码实现）

Python爬虫【实战篇】百度翻译

python实战篇---类

【Python爬虫实例学习篇】——4、超详细爬取bilibili视频

Python爬虫：AcFun弹幕视频网

pychong爬虫爬取bilibili弹幕数据

爬虫获取 bilibili 弹幕并生成词云

「docker实战篇」python的docker爬虫技术-appium+python实战（18）

bilibili视频爬虫

bilibili视频-爬虫

Python爬虫入门实战之猫眼电影数据抓取（实战篇）

python批量提取哔哩哔哩bilibili视频

「docker实战篇」python的docker爬虫技术-python脚本app抓取（13）

【Python网络爬虫实战篇】使用selenium+requests爬取下载高清源视频：关于爬取m3u8文件链接解析为ts视频合并成mp4视频的分析实战

python实现爬取指定bilibili视频的弹幕并制作词云

【Python爬虫项目实战】Python爬虫采集弹幕数据

爬虫实战篇---12306抢票爬虫

爬虫实战篇——12306抢票爬虫

从头学习爬虫（三十二）实战篇----动漫之家漫画（Python实现）

Python爬虫【实战篇】scrapy 框架爬取某招聘网存入mongodb

Python爬虫【实战篇】百度贴吧爬取页面存到本地

「docker实战篇」python的docker爬虫技术-fiddler抓包工具（三）

「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置（七）

「docker实战篇」python的docker爬虫技术-在linux下mitmproxy介绍和安装（四）

「docker实战篇」python的docker爬虫技术-导学（一）

「docker实战篇」python的docker爬虫技术-安卓模拟器（二）

「docker实战篇」python的docker爬虫技术-fiddler的断点设置（八）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)