爬取钉钉在B站卑微道歉视频弹幕，做成词云

移动开发 2020-02-19 10:20:57 阅读次数: 0

爬取钉钉在B站卑微道歉视频弹幕，做成词云

先看用户老爷们给出得评价

在这里插入图片描述

然后是爬取代码：很简单

import requests
import jieba
import numpy as np
from lxml import etree
from wordcloud import WordCloud as wc
from PIL import Image
url = 'https://api.bilibili.com/x/v1/dm/list.so?oid=152796906'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'
}
result = []
html = etree.parse("./B站弹幕/bilibli.xml",etree.HTMLParser())
text = html.xpath("//d//text()")
with open ('./B站弹幕/a.txt',"a+",encoding="utf-8") as f:
    for t in text:
        f.write(t+'\n')

最后是词云制作

import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator

l = ''
f = open('./B站弹幕/a.txt', 'r',encoding='utf-8')  # 这个就是你的数据源，打开数据时和数据进行截取可以使用结巴分词器
for i in f:
	l += f.read()

result = jieba.analyse.textrank(l, topK=250, withWeight=True)
keyworlds = dict()
for i in result:
	keyworlds[i[0]] = i[1]

# print(keyworlds)

image = Image.open('./B站弹幕/timg.jpg')  # 这个就是你的背景，想要好看的，背景图颜色多一点
graph = np.array(image)
wc = WordCloud(font_path='simhei.ttf', background_color='White', max_font_size=170, mask=graph)
wc.generate_from_frequencies(keyworlds)
image_color = ImageColorGenerator(graph)
plt.imshow(wc)
# plt.imshow(wc.recolor(color_func=image_color))
plt.axis('off')
plt.show()
wc.to_file('./B站弹幕/1.png')

猿胖子

发布了23 篇原创文章 · 获赞 22 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_36389249/article/details/104364747

爬取钉钉在B站卑微道歉视频弹幕，做成词云

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

用python爬取B站弹幕并绘制词云

Python爬虫爬取B站视频弹幕 + 绘制词云

爬取B站up主视频弹幕并生成词云图（2020年5月）

Python自动化爬取b站实时弹幕并制作WordCloud词云

爬取b站弹幕

用Python爬取优酷弹幕数据并做成词云，"人"云亦云

python爬取B站视频弹幕分析并制作词云

用Python爬取B站视频弹幕

爬虫实战---爬取B站视频弹幕（春物）

冰冰B站视频弹幕爬取原理解析

爬取B站弹幕并且制作词云

爬取B站中的《啥是佩奇》的实时弹幕并利用jieba分词形成词云效果

爬出B站字幕做成词云

爬取b站热门视频的弹幕，并进行弹幕分析

如何爬取B站弹幕

爬虫爬取b站弹幕方法

爬取b站歌曲的弹幕

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

Python教你爬取某站视频弹幕，并绘制词云图（内含完整源码）

爬取B站视频排名第一《祖国大好河山》1W+弹幕，得出一份词频词云图

爬取B站视频

Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

Python爬虫新手入门教学（五）：爬取B站视频弹幕

Python爬虫b站视频弹幕并生成词云图分析

爬虫大作业-爬取B站弹幕

Python爬取B站弹幕的思路和流程

python爬取B站弹幕学习笔记

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)