爬取B站弹幕并且制作词云 - 代码天地

爬取B站弹幕并且制作词云

其他 2020-06-22 23:24:44 阅读次数: 0

爬取弹幕
- 1. 从手机端口进入网页爬取找到接口
- 2.代码
制作词云
- 1.文件读取
- 2.代码

爬取弹幕

1. 从手机端口进入网页爬取找到接口

2.代码

import requests
from lxml import etree
import numpy as np
url='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779'
headers= {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36',
     }
response = requests.get(url,headers= headers)
# response.encoding='utf-8'
# print(response.text)
# print(response.content)
print(type(response.text))
html=etree.HTML(response.content)
t=etree.tostring(html)
# print(t)
words = html.xpath('/html//d/text()')
with open('word.txt','w')as f:
    for word in words:
        f.write(word+' ')
print(words)

每一次的都是不同的弹幕所以不用担心弹幕数量过少

制作词云

利用的是wordcloud库

1.文件读取

2.代码

#coding:utf-8


from matplotlib import pyplot as plt
from wordcloud import WordCloud
import jieba
f=open(r'word.txt','r',encoding='gbk').read()
font = r'C:\Windows\Fonts\FZSTK.TTF'

cloud=WordCloud(
    font_path=font,
    width=1000,
    height=800,
    margin=2
).generate(f)

plt.imshow(cloud)
plt.axis('off')
plt.show()

猜你喜欢

转载自www.cnblogs.com/smashfun/p/13179476.html

爬取B站弹幕并且制作词云

python爬取B站视频弹幕分析并制作词云

爬取bilibili弹幕制作词云

爬取哔哩哔哩弹幕制作词云

Python自动化爬取b站实时弹幕并制作WordCloud词云

爬取b站弹幕

python实现爬取指定bilibili视频的弹幕并制作词云

用python爬取B站弹幕并绘制词云

Python爬取《三国演义》并且制作词云

利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(一)

利用BeautifulSoup库爬取虎扑湖区评论并且制作词云(二)

如何爬取B站弹幕

爬虫爬取b站弹幕方法

爬取b站歌曲的弹幕

爬取ICLR历年论文并制作词云

Python爬虫：爬取网络流行词制作词云

爬取钉钉在B站卑微道歉视频弹幕，做成词云

Python爬虫爬取B站视频弹幕 + 绘制词云

爬虫大作业-爬取B站弹幕

Python爬取B站弹幕的思路和流程

python爬取B站弹幕学习笔记

用Python爬取B站视频弹幕

B站评论(含折叠的)与弹幕爬取

爬虫实战---爬取B站视频弹幕（春物）

卧槽！原来爬取B站弹幕这么简单

冰冰B站视频弹幕爬取原理解析

爬取b站《守护解放西》弹幕

爬取B站中的《啥是佩奇》的实时弹幕并利用jieba分词形成词云效果

python爬取网页版优酷视频《我不是药神》的弹幕数据并制作词云图

爬取b站热门视频的弹幕，并进行弹幕分析

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)