クラウドの単語のテキストマイニングおよびパーソナライズされた単語の雲
A:単語の雲-WordCloud
Wordの雲:フォントサイズのカラースタイルを集中表示に従って発生頻度を変更することにより、テキストで表示されたキーワードなどのために
個人的な見解、wordcloud言葉は非常に効率的にテキストプレゼンテーションツールで埋めた画像ファイルの基本要素としての意志(サポート英語、中国語、その他の言語の語彙)です。同時に、それはまたすることができ使用されるマスク(マスク)機能は、セグメンテーションツールなど、より直感的に、美しく、創造的かつパーソナライズされたテキストを表示するテキストと組み合わせることができます
スイープ視聴者がテキストワードクラウド推力を楽しむことができるように、高周波数「のキーワードは、」あまりにも長い間、非効率的なテキスト情報の多くをフィルタリングするために、キーワードセット直感的なレベルを与え、視覚的に目立つことにします
インストールWordCloudライブラリー
- ピップはwordcloudをインストール:インストールするコマンド
- Wordcloudダウンロードし、インストーラをダウンロードして公式サイトをインストールするには、注意が使用しているPythonのバージョンと一致する必要があります。https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
2:jieba
jiebaは、中国語の単語を吃音、優れたサードパーティのPython中国のサブシソーラス、自然言語解析ツール(NLP)の一つです。漢字の確率との間の相関関係、単語、単語形成結果の大きな構図の確率を決定するために、「辞書」に基づいています。
jieba生産住所:https://github.com/fxsjy/jieba
jiebaのDapperの、セグメンテーション機能が、見落としてはなりません。これは3つのサブワードモード、カスタム辞書のサポート、支援の伝統的な言葉があります。
ワード3種類のモード:
- (A)ファインモード
- 最も正確にカットし、フィットテキスト分析を文章しようとしています。
- (B)フルモード
- 文中のすべての言葉は非常に高速です言葉にスキャンすることができますが、あいまいさを解決しません。
- (C)検索エンジンモード
- ファインモードごとに、長期的な再分割、検索エンジンの単語のためのリコールを向上させます。
jiebaインストール
Pythonの2/3は互換性があります。輸入jiebaによって参照。
- (A)自動インストール
- easy_installをjiebaまたはピップjiebaまたはPIP3インストールjiebaをインストール
- (B)半自動インストール
- http://pypi.python.org/pypi/jieba/
- 解凍実行をダウンロードした後のPython のsetup.py インストール
- (C)手動でインストール
- 現在のディレクトリにjiebaまたはディレクトリがsite-packagesディレクトリに置かれています。
- (IV)PyCharmマウント
- 【ファイル】 - 【設定】 - 【プロジェクト通訳】 - 【+】 - 搜索jieba-【パッケージをインストールします】
ケース:「西の旅」の線を描く抜粋ワードクラウド
import numpy as np
import matplotlib.pyplot as plt
import jieba from wordcloud import WordCloud from PIL import Image # 载入文本数据 with open('F:/data/大话西游.txt', 'r', encoding='gbk') as f: # print(f.read()) txt = f.read() txt2 = ' '.join(jieba.cut(txt)) # 绘制词云 # 停用词 # 方式2:读入停用词文件为列表 with open('F:/data/stopword.txt', 'r', encoding='gbk') as f: # print(f.read()) s = f.read() stopword = s.split('\n') stopword # 词云绘制时去停用词 # 基本版词云 wordcloud = WordCloud( font_path="F:/data/FZSTK.TTF", ).generate(txt2) wordcloud plt.imshow(wordcloud)
wordcloud = WordCloud(
font_path="F:/data/arial unicode ms.ttf", # 字体,不设置则汉字乱码
background_color='white',# 设置背景颜色 max_words=80, # 设置最大现显示词数 max_font_size=80, # font_size可选 stopwords = stopword, # 去停用词 ).generate(txt2) wordcloud plt.figure(figsize=(18, 10), dpi=72) plt.imshow(wordcloud, interpolation='bilinear') # 绘制数据内的图片,双线性插值绘图 plt.axis("off") # 去掉坐标轴 plt.savefig('F:/data/test.png', dpi=300, bbox_inches='tight') # 保存为:带有最小白边且分辨率为300DPI的PNG图片
パーソナライズ単語の雲
#读取背景图
alice_mask = np.array(Image.open("F:/data/heart.jpg"))
wordcloud = WordCloud(
background_color='white',# 设置背景颜色 max_words=100, # 设置最大现显示词数 font_path="F:/data/arial unicode ms.ttf", # 字体,不设置则汉字乱码 stopwords = stopword, # 去停用词 mask=alice_mask, # 设置背景图片 ).generate(txt2) wordcloud plt.figure(figsize=(18, 10), dpi=72) plt.imshow(wordcloud, interpolation='bilinear') # 绘制数据内的图片,双线性插值绘图 plt.axis("off") # 去掉坐标轴 plt.savefig('F:/data/test2.png', dpi=300, bbox_inches='tight')
高次:ワード雲画像の色のテンプレート
操作のステップの完了は、偉大な神と呼ばれることができます。外観は、画像の色を最適化し、ユーザーエクスペリエンスを向上させるために一緒にしましょう。
ImageColorGenerator(画像、default_color =なし)は、カラー画像生成の色に基づいています。RGBに係るカラー画像を生成します。平均ワード長方形のカラー画像が着色によって囲まれています。構成後、呼出可能オブジェクトとしてのオブジェクトは、ワードクラウドcolor_func又は色の変更コンストラクタメソッドに渡すことができます。また、パラメータが再着色のためのcolor_func WordCloudクラスワードクラウドを定義する必要があります。
import wordcloud
import jieba
# 使用ImageColorGenerator类根据获取的模板图像生成颜色,并赋值变量 color_new = wordcloud.ImageColorGenerator(alice_mask) wordcloud = WordCloud( background_color='white',# 设置背景颜色 max_words=100, # 设置最大现显示词数 font_path="F:/data/arial unicode ms.ttf", # 字体,不设置则汉字乱码 contour_width=25, # 词云形状边宽宽度 contour_color='red', # 词云形状边宽颜色 color_func=color_new, # 将上面模板图像生成的颜色传入词云 stopwords = stopword, # 去停用词 mask=alice_mask, # 设置背景图片 ).generate(txt2) wordcloud plt.figure(figsize=(18, 10), dpi=72) plt.imshow(wordcloud, interpolation='bilinear') # 绘制数据内的图片,双线性插值绘图 plt.axis("off") # 去掉坐标轴 plt.savefig('F:/data/test3.png', dpi=300, bbox_inches='tight')
7:データモデリング
インポートjieba インポートnumpyのAS NP インポートASのPLTをmatplotlib.pyplot から PIL インポート画像 から wordcloud インポートWC AS wordcloud インポートwordcloud WD AS #を読み込んでテキストデータを オープン(と' F:/データ/オデッセイが.txtで'、' R&LT '、 =コード' GBKを' Fとして): TXT = f.read() #ワード TXT2 = ' ' .join(jieba.cut(TXT)) #のモード2:ストップワードファイルのリストを読み込む オープンと(' F .: /Data/stopword.txt '、' R&LT '、コード= ' GBK ' )AS F: S = 達し、f.read() ストップワード = s.split(' \ N- ' ) wordcloud = wordcloud(font_path = " F. :/data/FZSTK.TTF " ).generate(TXT2) #は背景を読み取る alice_mask = np.array(Image.open(" F .: /data/heart.jpg " )) #1 に従って取得された使用ImageColorGeneratorクラステンプレート画像色を生成し、変数代入 color_new = wd.ImageColorGenerator(alice_mask) wordcloud = WC( BACKGROUND_COLOR = 「ホワイト」、#は、背景色の設定 = 100 MAX_WORDSを、#は単語の最大数は、現在表示されます設定 font_path = 「F:/データ/ ms.ttfのArial Unicodeの」、 #のフォント、文字の表示が提供されていない = 25 contour_widthを、 #の単語雲が広幅側形状 contour_color = 「赤」、 #の色幅ワードクラウド状エッジを color_func = color_new、 #色着信ワードクラウド生成上記テンプレート画像 ストップワード=ストップワード、 #ストップワードの マスク= alice_mask、 #1 セットの背景写真 ).generate(TXT2) wordcloud plt.figure(figsize =(18)、10、DPI = 72 ) plt.imshow(wordcloud、補間 = ' バイリニア')#データに絵を描く、A双線形補間マッピング plt.axis(" OFF ")#除去軸 plt.savefig(' F .: /data/test22.png '、= 300dpiの、bbox_inches = ' 'きついです')
ようこそ懸念:Aウッド