使用中文制作词云图--- - 代码天地

使用中文制作词云图---

其他 2018-11-10 15:50:55 阅读次数: 0

'''
制作词云图,背景可以替换成任意图片，本例中未展示图片
'''
import numpy as np
import pandas as pd
from wordcloud import WordCloud    #词云包
import jieba                       #中文分词包
import codecs                      #提供的open方法来指定打开的文件的语言编码，在读取的时候自动转换为内部unicode
import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0,5.5)          #绘制出的图大小


'''
读入数据
'''
df = pd.read_csv('H:/NLP_project/NLP_project/data/entertainment_news.csv')

'''
数据处理
'''
#数据切分
df = df.dropna()
content = df.content.values.tolist()                #转为list
segment = []
for line in content:
    try:
        segs = jieba.lcut(line)                     #利用jieba进行文本切分
        for seg in segs:
            if len(seg)>1 and seg!='\r\n':        #当元素不为空且不是换行符等，将其加入segment
                segment.append(seg)
    except:
        print(line)
        continue

'''
去除停用词
'''
stopwords = pd.read_csv('H:/NLP_project/NLP_project/data/stopwords.txt',index_col=False,quoting=3,sep="\t",names=['stopword'])
words_df = pd.DataFrame({'segment':segment})
words_df = words_df[~words_df.segment.isin(stopwords.stopword)]

'''
词频统计
'''
word_start = words_df.groupby(by=['segment'])['segment'].agg({"计数":np.size})        #按照segment，agg聚合
word_start = word_start.reset_index().sort_values(by=["计数"],ascending=False)

'''
做词云
'''
wordcloud = WordCloud(font_path="H:/NLP_project/NLP_project/data/simhei.ttf",background_color="black",max_font_size=80)
word_frequence = {x[0]:x[1] for x in word_start.head(1000).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)
plt.show()

猜你喜欢

转载自blog.csdn.net/weixin_40924580/article/details/83049664

使用中文制作词云图---

Python 使用wordcloud制作词云图

python制作词云图

制作词云图

pyecharts制作词云图

python/wordcloud制作词云图

Python - 制作词云图 WorldCloud

利用 Pyecharts 制作词云图

根据（本地）数据或文件制作词云图

制作词云图的一些难点

虾米音乐歌单制作词云图

python处理数据集并制作词云图

python通过tkinter制作词云图工具

使用wordcloud制作词云报错OSError: cannot open resource和制作出的词云图乱码问题

网易云音乐歌单制作词云图

制作词云图过程中积累到的知识

使用python制作词云

使用python或者Anaconda环境制作词云图时报错：ModuleNotFoundError: No module named ‘wordcloud‘ 解决办法

Python制作词云--stylecloud简单使用

利用python爬取微博热搜榜制作词云图

Python爬虫新手入门教学（六）：制作词云图

python学习之 python制作词云图我的第一张python词云图 python怎么做词云图

python中wordcloud库的使用制作词云

抓取qq音乐评论 (林俊杰-雪落下的声音) 制作词云图，是否值得一听

python爬取网页版优酷视频《我不是药神》的弹幕数据并制作词云图

Python3 获取任意贴吧最新帖子制作词云图存储为markdown！

Python制作词云

Python对网页内容作词云图分析

R语言制作词云

jieba.analyse的使用：提取关键字/词频制作词云

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)