1. Introducción a nltk
NLTK (Natural Language Toolkit) es una biblioteca de Python para procesamiento de lenguaje natural y análisis de texto.
NLTK admite muchas tareas de procesamiento de lenguaje natural, como clasificación de texto, análisis de sintaxis, etiquetado de partes del discurso, procesamiento de corpus de texto y más.
2. instalación nltk
pip install nltk
3. instalación de nltk_data
wget https://gitcode.net/mirrors/nltk/nltk_data/-/archive/gh-pages/nltk_data-gh-pages.zip
unzip nltk_data-gh-pages.zip
4. Ver la ruta de recuperación de archivos
Crea un nuevo archivo py:
import nltk
nltk.data.find('.')
ejecutar programa:
5. Coloque el diccionario de sinónimos en la ruta de búsqueda
Puede colocar los archivos en la ruta de los paquetes en cualquier ruta donde el programa anterior informe un error.
cp -R nltk_data-gh-pages/packages/* /root/nltk_data/
Nota: ¡ El siguiente paso es muy importante! ! !
Encuentre el directorio donde se encuentra punkt en nltk-data:
¡Comprime el archivo punkt.zip y luego bórralo!
6. prueba de la biblioteca nltk
Código de muestra de Python:
import nltk
# 下载词性标注器
#nltk.download('averaged_perceptron_tagger')
text = "I love natural language processing"
tokens = nltk.word_tokenize(text)
tags = nltk.pos_tag(tokens)
# 输出分类结果
for word, pos in tags:
print(word, pos)
Entrada de blog de referencia: