用Python爬取B站视频弹幕

在这里插入图片描述

01找到请求的URL

我们平时在B站看视频时,弹幕是出现在视频上的,然而实际上,弹幕是存储在一个xml文件中的。我们想要找到弹幕,只需要找到这个xml文件即可。
例如:
https://comment.bilibili.com/139527441.xml
通过分析我们可以发现,每个视频弹幕的URL前半部分都是固定的,后半部分为一串数字,那么这串数字是什么呢?盲猜这一串数字和视频有关,可能是视频的编号。
其实,这一串数字就是视频的cid,到目前为止,我们已经分析出了要请求的URL。
https://comment.bilibili.com/视频cid.xml
那么如何查看一个视频的cid呢?
可以通过查看页面源代码的方式来找到视频的cid。
在这里插入图片描述

02发送请求并解析数据

在这里插入图片描述

03将弹幕文件保存到本地

在这里插入图片描述
在这里插入图片描述

完整源代码如下:

# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time:    2020/1/1 14:44
# @Author:  Martin
# @File:    Bilibili_Barrage.py
# @Software:PyCharm
import requests
import pandas as pd
from lxml import etree
# bilibili视频弹幕的URL
url = "https://comment.bilibili.com/139527441.xml"
# 发送请求
response = requests.get(url)
xml = etree.fromstring(response.content)
# 解析数据
barrage = xml.xpath("/i/d/text()")
# 把列表转换成DataFrame
barrage_df = pd.DataFrame(barrage, columns=['弹幕内容'])
# 保存到本地
barrage_df.to_csv("./result/Barrage.csv", encoding='utf_8_sig')


发布了102 篇原创文章 · 获赞 93 · 访问量 9659

猜你喜欢

转载自blog.csdn.net/Deep___Learning/article/details/103793119