序文
ワードクラウドを作って、公式アカウントに入れてみてください。オンラインのワードクラウドで
作ることもできます。
貧しいお父さんと金持ちのお父さんの本のすべてのテキストを抽出します
私はすでにこの本のテキストpdfを持っているので、目的を達成するためにpdfに直接コピーすることができます
。Pythonを使用する他の方法はありますか?
それはいくつかのpdfplumberの紹介でなければなりません
ワードクラウドを作る
これは比較的良いチュートリアルです。
ライブラリが必要です:jieba、matplotlib、Wordcloud。Wordcloud
はpipで直接インストールできず、ミラーソースを変更すると機能しないことに注意してください。公式ウェブサイトにアクセスしてダウンロードする必要があります。 whlファイルとインストール
https://www.lfd.uci.edu/〜gohlke / pythonlibs /#wordcloud
最初に最も簡単な使用法を試してください
from wordcloud import WordCloud
import PIL.Image as image
with open("dad.txt", encoding='gb18030', errors='ignore') as fp:
text = fp.read()
WordCloud = WordCloud().generate(text)
image_produce = WordCloud.to_image()
image_produce.show()
注意
with open("dad.txt", encoding='gb18030', errors='ignore') as fp:
#不解码会报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xb8 in position 8: illegal multibyte sequence
ポップアップは表示されますが、コンテンツは表示されません。英語に変更してみてください。
もちろん、英語は
問題ありません。中国語の問題に関係なく、形状を変更してみてください
。numpyライブラリ
をインポートして、形状のある画像をダウンロードしてください。操作は少し難しい
です。。。。。。。未だに
中国語の問題を解決するのはとても簡単です。フォントを導入するだけです。
WordCloud = WordCloud(font_path='msyh.ttc').generate(text)
完全なコード
from wordcloud import WordCloud
import PIL.Image as image
import numpy as np
import jieba
with open("ciyu.txt", encoding='utf-8', errors='ignore') as fp:
text = fp.read()
word_list = jieba.cut(text)#jieba库的作用是进行分词
result = "".join(word_list)
# mask = np.array(image.open("图片1.jpg"))没找到有形状的图片
WordCloud = WordCloud(font_path='msyh.ttc').generate(text)
image_produce = WordCloud.to_file("dads.png")
取得
画像を保存するには、このようにコードの最後の2行を変更します。
この時点で、ワードクラウドはPython
で作成され、画像がすべて文であることが確認されています。現時点では、jiebaのライブラリに依存する必要があります。さらに単語のセグメンテーション。ここで
jiebaライブラリを学ぶ
総括する
焦点はまだjiebaライブラリにあり、このライブラリの使用は非常に重要です