Este artículo presentará lo siguiente:
- Usar participio jieba
- Utilice la segmentación de palabras de pyltp
- Utilice pkuseg para segmentar palabras
- Usar participio nltk
Normalmente, la PNL no puede procesar párrafos u oraciones completos a la vez, por lo que el primer paso suele ser la segmentación de oraciones y palabras. Aquí presentaremos varios métodos de segmentación de palabras.
Uno, use la segmentación de palabras jieba
Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108810284
En segundo lugar, use la segmentación de palabras pyltp
Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108511408
En tercer lugar, utilice la segmentación de palabras pkuseg
Puede consultar el artículo que escribí antes: https://blog.csdn.net/TFATS/article/details/108851344
Cuarto, use el participio nltk
La herramienta nltk se usa generalmente como una herramienta de incrustación de palabras en texto en inglés. Aquí solo se introduce el
método de tokenización . Para obtener información detallada sobre el uso, consulte: https://www.cnblogs.com/chen8023miss/p/11458571.html
http://www.pythontip.com/blog/post/10012/
Nota: Puede haber algunos problemas al instalar nltk, puede consultar el artículo que compartí antes: https://blog.csdn.net/TFATS/article/details/108519904
from nltk import word_tokenize
sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."
sents = [sent1, sent2]
texts = [[word for word in word_tokenize(sent)] for sent in sents]
# ------ output------
[['I', 'love', 'sky', ',', 'I', 'love', 'sea', '.'], ['I', 'like', 'running', ',', 'I', 'love', 'reading', '.']]