1. Introduction à nltk
NLTK (Natural Language Toolkit) est une bibliothèque Python pour le traitement du langage naturel et l'analyse de texte.
NLTK prend en charge de nombreuses tâches de traitement du langage naturel, telles que la classification de texte, l'analyse syntaxique, le balisage des parties du discours, le traitement de corpus de texte, etc.
2. installation nltk
pip install nltk
3. Installation de nltk_data
wget https://gitcode.net/mirrors/nltk/nltk_data/-/archive/gh-pages/nltk_data-gh-pages.zip
unzip nltk_data-gh-pages.zip
4. Afficher le chemin de récupération du fichier
Créez un nouveau fichier py :
import nltk
nltk.data.find('.')
exécuter le programme :
5. Mettez le thésaurus dans le chemin de recherche
Vous pouvez placer les fichiers sous le chemin des packages dans n'importe quel chemin où le programme ci-dessus signale une erreur.
cp -R nltk_data-gh-pages/packages/* /root/nltk_data/
Remarque : La prochaine étape est très importante ! ! !
Trouvez le répertoire où se trouve punkt dans nltk-data :
Compressez l'archive punkt.zip, puis supprimez-la !
6. test de la bibliothèque nltk
Exemple de code Python :
import nltk
# 下载词性标注器
#nltk.download('averaged_perceptron_tagger')
text = "I love natural language processing"
tokens = nltk.word_tokenize(text)
tags = nltk.pos_tag(tokens)
# 输出分类结果
for word, pos in tags:
print(word, pos)
Article de blog de référence :