palavra PYNLPIR chinês, gerar imagem Nuvem da palavra

NLPIR Introdução

Site Oficial: sistema palavra NLPIR-ICTCLAS chinês

sistema de segmentação de palavras NLPIR chinês

As principais características incluem palavra chinesa, a palavra Inglês; marcação de discurso; reconhecimento de entidades nomeadas; nova reconhecimento de palavras; extração de palavras-chave; suporte ao usuário especializado dicionários e análise de microblogging. sistema NLPIR suporta uma variedade de codificação, vários sistemas operacionais, uma variedade de linguagens de desenvolvimento e plataformas.

função

função de palavra misturada Inglês

Automatic chinês e marcação discurso informações Inglês palavra, cobrir toda palavra chinesa, Inglês palavra segmentação, POS tagging, reconhecimento de palavras desconhecidas e dicionários do usuário e outras funções.

função de extração de palavras-chave

Usando o algoritmo de entropia cruzada automaticamente palavra-chave calcular, incluindo novas palavras com palavras conhecidas, aqui está o resultado da extração de palavras-chave oitava sessão da parte Terceira Sessão do relatório.

Nova palavra de identificação de palavra e uma função adaptativa

A partir de um conteúdo de texto mais longo, com base nas informações entropia cruz encontrar as novas funcionalidades da linguagem e modelo de distribuição corpus probabilidade teste de língua adaptativa, segmentação adaptativa.

função de dicionário do usuário profissional

Pode ser introduzido em um único dicionários do usuário, dicionários do usuário pode ser introduzida na massa. Como pode ser dada "pontos sensíveis relatório canal", onde o usuário é relatar palavras de canal, o ponto sensível é etiquetas de voz definidos pelo usuário.

PYNLPIR

pynlpir a API sob Python, pode ser utilizado directamente montado pip

Iniciar ou fechar API

pynlpir.open()
pynlpir.close()

Add User Dicionário

pynlpir.nlpir.ImportUserDict(b'xxx.txt')

O mais importante queda, palavra

text_segment = pynlpir.segment(contents)

O código completo

from collections import Counter
import matplotlib.pyplot as plt
import wordcloud
import pynlpir

with open('./paper.txt', encoding='utf-8') as text:
    contents = text.read()

# 分词
pynlpir.open()    # 启动API
pynlpir.nlpir.ImportUserDict(b'user_dict.txt')    # 读取用户字典，路径需要是二进制字符串
text_segment = pynlpir.segment(contents)    # 分词
words = []
disliked_tag = ['numeral', 'time word', 'punctuation mark',
                'preposition', 'conjunction', 'noun of locality']  # 不喜欢的标签
for w in text_segment:
    w0 = w[0].strip()
    if len(w0) > 1 and w[1] not in disliked_tag:    # 删除单个字和不喜欢的标签
        print(w)
        words.append(w0)
pynlpir.close()    # 关闭API
# 词频统计
word_cnt = Counter(words)
print(word_cnt)

# 生成词云
wc = wordcloud.WordCloud(
    scale=8,    # 设置图像清晰度，只在保存时起作用，显示时不起作用
    font_path='C:/Windows/Fonts/simhei.ttf',    # 设置字体格式
    max_words=50,    # 最多显示词数
    max_font_size=100,
    background_color='white'
)
wc.generate_from_frequencies(word_cnt)  # 从字典生成词云
wc.to_file('./1.png')    # 保存词云图像

# 显示词云
plt.imshow(wc)
plt.axis('off')    # 关闭坐标轴
plt.show()    # 显示图像