NLP (1) Utilice jieba, pyltp, pkuseg, segmentación de palabras nltk

Este artículo presentará lo siguiente:

  • Usar participio jieba
  • Utilice la segmentación de palabras de pyltp
  • Utilice pkuseg para segmentar palabras
  • Usar participio nltk

Normalmente, la PNL no puede procesar párrafos u oraciones completos a la vez, por lo que el primer paso suele ser la segmentación de oraciones y palabras. Aquí presentaremos varios métodos de segmentación de palabras.

Uno, use la segmentación de palabras jieba

Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108810284

En segundo lugar, use la segmentación de palabras pyltp

Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108511408

En tercer lugar, utilice la segmentación de palabras pkuseg

Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108851344

Cuarto, use el participio nltk

La herramienta nltk se usa generalmente como una herramienta de incrustación de palabras en texto en inglés. Aquí solo se introduce el
método de tokenización . Para obtener información detallada sobre el uso, consulte: https://www.cnblogs.com/chen8023miss/p/11458571.html
http://www.pythontip.com/blog/post/10012/

Nota: Puede haber algunos problemas al instalar nltk, puede consultar el artículo que compartí antes: https://blog.csdn.net/TFATS/article/details/108519904

from nltk import word_tokenize

sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."

sents = [sent1, sent2]
texts = [[word for word in word_tokenize(sent)] for sent in sents]

# ------ output------
[['I', 'love', 'sky', ',', 'I', 'love', 'sea', '.'], ['I', 'like', 'running', ',', 'I', 'love', 'reading', '.']]

Supongo que te gusta

Origin blog.csdn.net/TFATS/article/details/108800919
Recomendado
Clasificación