Python爬虫b站视频弹幕并生成词云图分析 - 代码天地

Python爬虫b站视频弹幕并生成词云图分析

其他 2019-12-07 01:17:31 阅读次数: 0

爬虫：requests，beautifulsoup

词云：wordcloud，jieba

代码加注释：

 1 # -*- coding: utf-8 -*-
 2 import xlrd#读取excel
 3 import xlwt#写入excel
 4 import requests
 5 import linecache
 6 import wordcloud
 7 import jieba
 8 import matplotlib.pyplot as plt
 9 from bs4 import BeautifulSoup
10  
11 if __name__=="__main__":
12     yun=""
13 
14     n=0#ID编号
15     target='https://api.bilibili.com/x/v1/dm/list.so?oid=132084205'#b站oid页
16     user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
17     headers = {'User-Agent':user_agent}#伪装浏览器
18 
19     req=requests.get(url=target)
20     html=req.text
21     html=html.encode('ISO 8859-1')
22     #html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')
23     bf=BeautifulSoup(html,"html.parser")   
24 
25     texts=bf.find('i')
26     texts_div=texts.find_all('d')
27     #print(texts_div)
28     for item in texts_div:
29         n=n+1
30         item_name=item.text#标题
31         yun+=str(item_name)
34 
35     yun=yun.replace(" ","")
36     yun=yun.replace("哈","")
37     yun=yun.replace("啊","")
38     yun=yun.replace("一","")#去除无意义弹幕
39     # 结巴分词，生成字符串，wordcloud无法直接生成正确的中文词云
40     cut_text = " ".join(jieba.cut(yun))
41     wc = wordcloud.WordCloud(
42     #设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的
43     font_path="C:/Windows/Fonts/simfang.ttf",
44     #设置了背景，宽高
45     background_color="white",width=1000,height=880).generate(cut_text)
46 
47     plt.imshow(wc, interpolation="bilinear")
48     plt.axis("off")
49     plt.show()
50     print("Done!")

运行结果图：

猜你喜欢

转载自www.cnblogs.com/ljy1227476113/p/12000264.html

Python爬虫b站视频弹幕并生成词云图分析

爬取B站up主视频弹幕并生成词云图（2020年5月）

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

用Python分析B站视频弹幕

Python爬虫爬取B站视频弹幕 + 绘制词云

Python教你爬取某站视频弹幕，并绘制词云图（内含完整源码）

一文搞定B站弹幕生成云图

抗击肺炎，我们能做到的，就是别让爱隔离——python分析B站三个视频弹幕内容，云图数据。

【爬虫+情感判定+Top10高频词+词云图】热门弹幕python舆情分析

B站弹幕爬虫

python爬虫----b站的弹幕获取

爬取B站视频排名第一《祖国大好河山》1W+弹幕，得出一份词频词云图

python爬虫之-获取b站搜索页面所有视频弹幕

Python爬虫新手入门教学（五）：爬取B站视频弹幕

爬虫实战---爬取B站视频弹幕（春物）

用python爬取B站弹幕并绘制词云

[源码和文档分享]基于python的B站弹幕数据分析（爬虫+可视化）

python生成词云图

python词云图的生成

python爬取B站视频弹幕分析并制作词云

【Python爬虫】第五课（b站弹幕）

用Python爬取B站视频弹幕

Python获取B站视频弹幕简单处理

python 爬取视频评论生成词云图

python3网络爬虫--最新爬取B站视频弹幕 so文件（附源码）

python采集火热弹幕数据并做词云图可视化分析

分析了b站敬汉卿的所有视频的弹幕,最多的弹幕居然是

爬取b站热门视频的弹幕，并进行弹幕分析

Python利用GUI界面制作B站弹幕分析工具

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)