ワードクラウドと貧しいお父さん、金持ちのお父さん

序文

ワードクラウドを作って、公式アカウントに入れてみてください。オンラインのワードクラウドで
作ることもできます。

貧しいお父さんと金持ちのお父さんの本のすべてのテキストを抽出します

私はすでにこの本のテキストpdfを持っているので、目的を達成するためにpdfに直接コピーすることができます
。Pythonを使用する他の方法はありますか?
それはいくつかのpdfplumberの紹介でなければなりません

ワードクラウドを作る

これは比較的良いチュートリアルです。
ライブラリが必要です:jieba、matplotlib、Wordcloud。Wordcloud
はpipで直接インストールできず、ミラーソースを変更すると機能しないことに注意してください。公式ウェブサイトにアクセスしてダウンロードする必要があります。 whlファイルとインストール
https://www.lfd.uci.edu/〜gohlke / pythonlibs /#wordcloud

最初に最も簡単な使用法を試してください

from wordcloud import WordCloud
import PIL.Image as image
with open("dad.txt",  encoding='gb18030', errors='ignore') as fp:
    text = fp.read()
    WordCloud = WordCloud().generate(text)
    image_produce = WordCloud.to_image()
    image_produce.show()

注意

with open("dad.txt",  encoding='gb18030', errors='ignore') as fp:
#不解码会报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xb8 in position 8: illegal multibyte sequence

ここに画像の説明を挿入
ポップアップは表示されますが、コンテンツは表示されません。英語に変更してみてください。
ここに画像の説明を挿入
もちろん、英語は
問題ありません。中国語の問題に関係なく、形状を変更してみてください
。numpyライブラリ
インポートして、形状のある画像をダウンロードしてください。操作は少し難しい
です。未だに

中国語の問題を解決するのはとても簡単です。フォントを導入するだけです。

WordCloud = WordCloud(font_path='msyh.ttc').generate(text)

完全なコード

from wordcloud import WordCloud
import PIL.Image as image
import numpy as np
import jieba

with open("ciyu.txt",  encoding='utf-8', errors='ignore') as fp:
    text = fp.read()
    word_list = jieba.cut(text)#jieba库的作用是进行分词
    result = "".join(word_list)
    # mask = np.array(image.open("图片1.jpg"))没找到有形状的图片
    WordCloud = WordCloud(font_path='msyh.ttc').generate(text)
    image_produce = WordCloud.to_file("dads.png")

取得
ここに画像の説明を挿入
画像を保存するには、このようにコードの最後の2行変更します。
ここに画像の説明を挿入
この時点で、ワードクラウドはPython
作成され、画像がすべて文であることが確認されています。現時点では、jiebaのライブラリに依存する必要があります。さらに単語のセグメンテーション。ここで
jiebaライブラリを学ぶ

総括する

焦点はまだjiebaライブラリにあり、このライブラリの使用は非常に重要です

おすすめ

転載: blog.csdn.net/qq_51598376/article/details/114029837