Em primeiro lugar, instalar bibliotecas de terceiros
jieba biblioteca wordcloud ea biblioteca é uma excelente biblioteca de terceiros, é preciso instalar manualmente essas bibliotecas.
cmd abertas, respectivamente, digite o comando e instalar a biblioteca do wordcloud jieba biblioteca
pip instalar jieba
pip instalar wordcloud
Em segundo lugar, o artigo analisa o uso da biblioteca jieba
Aqui eu selecionar um escritor Qian artigo "caminho para a maior resistência ao", para contar a freqüência com que as palavras aparecem
Código é a seguinte:
importação jieba txt = aberta ( "C: \\ texto.txt", "r", que codifica = 'utf-8') ler (). palavras = jieba.lcut (TXT) contagens = {} para a palavra em palavras: Se len (palavra) == 1: continuar mais: contagens [palavra] = counts.get (word, 0) + 1 itens = lista (counts.items ()) Items.Sort (key = lambda x: x [1], verdadeira reverter =) no intervalo para i (15): palavra, count = itens [i] print ( "{0: <10} {1:> 5}". formato (palavra, contagem))
A saída é a seguinte:
Visível neste artigo, antes de as palavras de frequência palavra 15, como mostrado na FIG.
Terceiro, o uso da biblioteca wordcloud
biblioteca jieba pode txt a palavra estatísticas de freqüência sair, e queremos que o formato de saída de acordo com. Mas essas palavras formam a palavra bibliotecas nuvem wordcloud pode e saída pode o modo de imagem.
Aqui eu ainda escolher o artigo acima para formar uma biblioteca palavra nuvem wordcloud.
Código é a seguinte:
# GovRptWordCloudv1.py importação jieba importação wordcloud f = aberta ( "C: \\ texto.txt", "r", que codifica = "utf-8") t = f.read () f.close () sl = jieba. LCUT (t) txt = "" .join (ls) w = wordcloud.WordCloud (\ width = 1,000, altura = 700, \ background_color = "branco", font_path = "msyh.ttc" ) w.generate (TXT) w .to_file ( "grwordcloud.png")
Word cloud como mostrado abaixo: