【Python】Windows下用Jieba分词和WordCloud库生成中文词云

一、打开Anaconda Prompt,用activate命令激活环境

二、从清华镜像下载所需库:

jieba分词库

wordcloud绘制词云库

numpy常用于处理数组

PIL为图像处理标准库

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install wordclud -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install PIL -i https://pypi.tuna.tsinghua.edu.cn/simple

三、新建python文件,复制以下代码(其中需要修改的地方在下面有讲解)

import jieba
import numpy as np
from PIL import Image
from wordcloud import WordCloud

#读取标点符号库
f=open("E:/MyWork/SelfStudy/Python/stopwords.txt","r",encoding='UTF-8')
stopwords={}.fromkeys(f.read().split("\n"))
f.close()

#打开数据文件进行分词
text = (open('E:/MyWork/SelfStudy/Python/df.txt','r',encoding='utf-8')).read()
segs=jieba.cut(text)
mytext_list=[]

#文本清洗
for seg in segs:
    if seg not in stopwords and seg!=" " and len(seg)!=1:
        mytext_list.append(seg.replace(" ",""))
cloud_text=",".join(mytext_list)

#加载背景图片
cloud_mask = np.array(Image.open("E:/MyWork/SelfStudy/Python/bg1.png"))

wc = WordCloud(
    background_color="white", #背景颜色
    mask=cloud_mask,
    max_words=1000, #显示最大词数
    font_path="qihei55.ttf",  #使用字体
    min_font_size=15,
    max_font_size=50, 
    width=600,  #图幅宽度
	height=400
    )
wc.generate(cloud_text)
wc.to_file("E:/MyWork/SelfStudy/Python/pic.png")

关于以上代码的逐行解释:

头四行是引用需要的库:

import jieba
import numpy as np
from PIL import Image
from wordcloud import WordCloud

接下来是用jieba库进行分词:

先读取标点符号库,将特殊符号剔除掉

标点符号库的下载地址:https://download.csdn.net/download/weixin_37986926/10194654

将该txt文件的下载路径填到f=open的第一个引号里。

#读取标点符号库
f=open("你的标点符号库的txt文件的下载路径","r",encoding='UTF-8')
stopwords={}.fromkeys(f.read().split("\n"))
f.close()

接下来需要打开你要进行分词的txt数据文件进行分词处理(比如导出和室友的聊天记录emmm)

将该txt文件的路径填到text=(open('')的第一个单引号里。

#打开数据文件进行分词
text = (open('你的需要进行分词的txt文件的路径','r',encoding='utf-8')).read()
segs=jieba.cut(text)
mytext_list=[]

接下来是文本清洗过程,完成这一步后,分词的工作就做完了

#文本清洗
for seg in segs:
    if seg not in stopwords and seg!=" " and len(seg)!=1:
        mytext_list.append(seg.replace(" ",""))
cloud_text=",".join(mytext_list)

接下来你可以选取一张图片,作为词云的形状,此处放上转载的图片,我把它起名叫bg1.png

打开这张图片:

#加载背景图片
cloud_mask = np.array(Image.open("你的背景图片的路径"))

然后就可以绘制词云啦~

代码里注释比较清晰,可以自己调整参数玩:

wc = WordCloud(
    background_color="white", #背景颜色
    mask=cloud_mask,    #背景图片
    max_words=1000, #显示最大词数
    font_path="qihei55.ttf",  #使用汉仪旗黑字体,下载地址在下面
    min_font_size=15,
    max_font_size=50, 
    width=600,  #图幅宽度
	height=400
    )
wc.generate(cloud_text)

最后一行就是把生成的词云图片放到你的文件夹里,我给我的词云图片起名叫pic.png:

wc.to_file("E:/MyWork/SelfStudy/Python/pic.png")
# wc.to_file("你打算将词云图片放的文件夹/你打算给词云图片起的名字")

四、运行刚刚新建的.py文件

此时大概率会报错:OSError: cannot open resource

这是因为无法打开字体文件

本人亲测成功的解决方法:下载汉仪旗黑字体:https://download.csdn.net/download/jiajikang_jjk/10412251

然后将下载好的字体文件粘贴到C:\Windows\Fonts\路径里(这里专门存放字体文件)

(还有一种本人亲测不成功的方法:把参数改成font_path="arial.ttf",发现生成的词云是很多方块乱码。)

再次运行.py文件,没有报错,如下所示:

此时会发现词云图片在你设定的文件夹内成功生成,如下所示:

由上图可以看出博主平常打打游戏考考试,一聊起天来就哈哈哈哈哈哈的沙雕生活,以及热爱老师热爱党的优秀品行。


【参考博文】

1、使用Python做中文分词和绘制词云:其中写到了如何添加特殊词汇,使特殊词汇不被分开

2、python WordCloud 简单实例:详细讲解了如何添加背景图片,以使你的词云成为特定形状,本文中图片从这篇转载

3、Windows环境下Python中wordcloud的使用:详细讲解了各种报错和各种坑,介绍了用PIL显示图片的方式,讲解了wordcloud的参数调整

4、python之OSError: cannot open resource错误+解决方案:本人亲测成功的方案转载自这篇博文

【2018//11/11后记】

1、为什么这种博文没人看,前几天随手瞎写的一篇心情博客那么多点击量啊qwq

猜你喜欢

转载自blog.csdn.net/qq_41727666/article/details/83960317
今日推荐