パイソンで作られたワードクラウドと中国語の単語を実行します。

著者:メイHaoming

1.はじめに

ビッグデータの時代に、私たちはしばしば、メディアやサイトマップ内のさまざまな情報を参照してください。Wordのクラウドは、大規模なデータの可視化をテキストに重要な方法は、キーフレーズとボキャブラリーショーを強調するために、テキストの大部分可能です。中国語テキストの可視化のために、我々は最初の中国語の単語のテキストを必要とし、その後、キーワードテキストワードクラウドショーを行います。この記事では、ステップの実装によって、チュートリアルの手順に従うことを歓迎し、どのように中国語の単語を行うと、単語の雲を作るためにはPythonを使用する方法をお教えします。

プロジェクト住所:https://momodel.cn/workspace/5e77afb7a8a7dc6753f582b9?type=app

2.中国語の単語

Wordの2.1ポイント入門

いわゆるワード・シーケンスは、一つのワードにSiqieの意味に満ちているテキストに応じて、解析(単語頻度統計、感情分析、等)の次のステップを容易にします。英語の単語と単語は簡単でなければなりません中国語の単語に比べて、セパレータとしてスペースが付属しています。ここでは、中国語の単語を導入する例を取ります。PythonはJiebaワードIT正午ライブラリを使用する方法、その後、Jiebaライブラリ言葉を提供してくれます。

import jieba

# 文本数据
text = "MomodelAI是一个支持在线数据分析和AI建模的平台。"
result = jieba.cut(text)

# 将切分好的文本用" "分开
print("分词结果: " + " ".join(result)) 

'''
分词结果: MomodelAI 是 一个 支持 在线 数据分析 和 AI 建模 的 平台 。
'''

2.2特別な名詞

いくつかの特別な用語については、それがタイムシェアリングが分離されていないカットにするために、我々はスライス前に、これらの用語で強調するように選択することができます。

text = "Mo平台是一种支持模型开发与部署的人工智能建模平台。"

# 强调特殊名词
jieba.suggest_freq(('Mo平台'), True)
result = jieba.cut(text)

print("分词结果: "+" ".join(result)) 

'''
分词结果: Mo平台 是 一种 支持 模型 开发 与 部署 的 人工智能 建模 平台 。
'''

2.3清潔なテキスト

分割後のいくつかの特殊記号は、これらの言葉は、私たちの後の分析に影響を与えるだろう、言葉に分離します。ここでは、アウト雑草に特殊記号をスライスし、句読点ライブラリstopwords.txtを使用することができます。「」「」、のために、このような単語の長さとして、明らかに私たちはテキストを分析する任意の助けなし。治療の方法は、すべての雑草のうちの単語の長さです。

#从文件导入停用词表
stpwrdpath = "stop_words.txt"
stpwrd_dic = open(stpwrdpath, 'rb')
stpwrd_content = stpwrd_dic.read()

#将停用词表转换为list  
stpwrdlst = stpwrd_content.splitlines()
stpwrd_dic.close()
segs = jieba.cut(text)
mytext_list = []

# 文本清洗
for seg in segs:
    if seg not in stpwrdlst and seg!=" " and len(seg)!=1:
        mytext_list.append(seg.replace(" "," "))
        
cloud_text=" ".join(mytext_list) 
print("清洗后的分词结果: " + cloud_text)

'''
清洗后的分词结果: Mo平台 一种 支持 模型 开发 部署 人工智能 建模 平台
'''

3.ワードクラウド生産

3.1シンプルなワードクラウド生産

中国語のテキスト・データ・ワードクラウドを作成する前に、まず中国語のテキスト・ワードとなり、上記の方法を使用します。

# 中文分词
from wordcloud import WordCloud

with open('./Mo.txt',encoding = 'utf-8', mode = 'r')as f:
    myText = f.read()

myText = " ".join(jieba.cut(myText)) 
print(myText)

優れた単語のテキストデータを取得した後、我々はその後、WordCloudワードクラウドを作るためのライブラリを使用しています。(注:WordCloud自身のためには、中国語フォントをサポートしていない、我々は指定された出力フォントとして、simsun.ttfをダウンロードする必要があります。)

# 制作词云
wordcloud = WordCloud(background_color="white", font_path="simsun.ttf", height=300, width = 400).generate(myText)

# 图片展示
import matplotlib.pyplot as plt
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

# 将词云图片导出到当前文件夹
wordcloud.to_file("wordCloudMo.png") 

3.2指定した単語雲の形状を描きます

生産は単語の雲の形状を指定し、我々はImageIOでライブラリを使用し、ここで、単語の雲画像の外形を読む必要があります。

# 导入词云制作库wordcloud和中文分词库jieba
import jieba
import wordcloud

# 导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片
import imageio
mk = imageio.imread("chinamap.png")
w = wordcloud.WordCloud(mask=mk)

# 构建并配置词云对象w,注意要加scale参数,提高清晰度
w = wordcloud.WordCloud(width=1000, height=700,background_color='white',font_path='simsun.ttf',mask=mk,scale=15)

# 对来自外部文件的文本进行中文分词,得到string
f = open('新时代中国特色社会主义.txt',encoding='utf-8')
txt = f.read()
txtlist = jieba.lcut(txt)
string = " ".join(txtlist)

# 将string变量传入w的generate()方法,给词云输入文字
wordcloud = w.generate(string)


import matplotlib.pyplot as plt
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

# 将词云图片导出到当前文件夹
w.to_file('chinamapWordCloud.png')

3.3結果は

4.参考文献

  1. ブログ:https://www.jianshu.com/p/e4b24a734ccc
  2. githubのプロジェクト:https://github.com/TommyZihao/zihaowordcloud
  3. ビデオチュートリアル:https://www.bilibili.com/video/av53917673/?p=1

##について
のMo(します。https:URL //momodel.cn)トレーニングと展開モデルは、迅速開発を支援することができますサポートPythonの人工知能オンラインモデリングプラットフォームです。

最近のMoは入門コースと論文の共有活動を機械学習、公共に関わる進行中であり、最新情報については、当社の数字を見て歓迎しています!

公開された36元の記事 ウォンの賞賛4 ビュー10000 +

おすすめ

転載: blog.csdn.net/weixin_44015907/article/details/105220597