爬出B站字幕做成词云 - 代码天地

爬出B站字幕做成词云

编程语言 2019-01-22 01:44:02 阅读次数: 0

首先打开B站,随便打开一个视频(要打开视频,再刷新),找到左边箭头的那个项,
然后电击右边header, 这个网址就是我们要爬取的弹幕了
在这里插入图片描述

以下是源码, 把网址后面那串数字放进程序入口就可以出结果了

import requests, re
from matplotlib import pyplot as plt
from wordcloud import WordCloud

# 获取网页信息
def get_webpage(cid):
    url = 'https://api.bilibili.com/x/v1/dm/list.so?oid='+str(cid)  # 1.需抓取的网址
    header ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
    webpage = requests.get(url=url,headers=header)
    with open('bili02.txt','wb') as w:
        w.write(webpage.content)
    with open('bili02.txt','r',encoding='utf-8') as r:
        rs = r.read()
    list = re.findall('>.*?<',rs)
    result=''
    for i in list:
        result += str(i).strip('>').strip('<')+'\n'
    return result

# 词云
def wrodcloud(str):
    font = r'C:\Windows\Fonts\FZSTK.TTF'
    wc = WordCloud(font_path=font,  # 如果是中文必须要添加这个，否则会显示成框框
                   background_color='white',
                   width=1000,
                   height=800,
                   ).generate(str)# 这个result就是上面的字符串
    wc.to_file('ss.png')  # 保存图片
    plt.imshow(wc)  # 用plt显示图片
    plt.axis('off')  # 不显示坐标轴
    plt.show()  # 显示图片

if __name__ == "__main__":
    rs = get_webpage(71986702)
    wrodcloud(rs)

结果如下:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/SmatrStone/article/details/86575209

爬出B站字幕做成词云

爬取钉钉在B站卑微道歉视频弹幕，做成词云

python爬虫（二）：爬取B站《夏洛特烦恼》字幕，词云展示

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

用python爬取B站弹幕并绘制词云

bilibili哔哩哔哩B站b站评论爬虫+词云

B站视频之CC字幕抓取

B站视频下载与字幕下载转换

【代码】QQ群最近聊天记录做成词云

Python爬虫爬取B站视频弹幕 + 绘制词云

Python自动化爬取b站实时弹幕并制作WordCloud词云

爬虫练习四：爬取b站番剧字幕

[python,b站黑科技]ass字幕自动加载到b站弹幕

将B站视频json格式的字幕转换为srt格式的字幕

用Python爬取优酷弹幕数据并做成词云，"人"云亦云

爬取B站中的《啥是佩奇》的实时弹幕并利用jieba分词形成词云效果

关于《后浪》的B站弹幕分析总结（三）——怎么制作好看的交互式词云

selenium爬取新闻做成词云（以及selenium的xpath查找方法）

几行代码爬取某东商品评论并写入数据库做成词云

Python爬虫b站视频弹幕并生成词云图分析

如何提取字幕或词？

Python Wordcloud 词云------实站：爬取起点网站《大王饶命》，结合词云展示数据

干货，下载网易云课堂和B站的视频

爬取B站弹幕并且制作词云

爬取B站up主视频弹幕并生成词云图（2020年5月）

词云

用Python抓取小破站视频字幕

B站&华为云 | 融合虚实宇宙，开启云上视听的黄金时代

B站云计算大神Python入门云计算系列教程

词云或标签云

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)