Un : Résumé
Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois .
Le texte chinois doit obtenir des mots individuels grâce à la segmentation des mots
Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois, qui nécessite une installation supplémentaire
La bibliothèque jieba fournit trois modes de segmentation de mots, et le plus simple ne nécessite que l'installation d'une fonction.
La bibliothèque jieba utilise le thésaurus chinois pour identifier la segmentation des mots.
La commande d'installation est la suivante :
→→→→→→→→→ Cliquez sur windows+r pour entrer dans l'invite de commande et entrez cmd. Après être entré dans l'interface, entrez pip install jieba . Vous pouvez l'installer.
Deux : instructions d'utilisation de la bibliothèque jieba
(1) Quatre modes de segmentation de mots jieba
Mode exact, mode complet, mode moteur de recherche, nouveau participe
① jieba.cut(s) Mode précis : fractionne le texte avec précision, sans mots redondants :
② jieba.lcut(s,cut_all=True) mode complet : scanne tous les mots possibles dans le texte, il y a redondance :
③jieba.lcut_for_search(s) mode moteur de recherche : sur la base du mode précis, segmentez à nouveau les mots longs :
④jieba.add_word(w), ajoutez un nouveau mot w au dictionnaire de segmentation de mots :
L'exemple de code est le suivant :
import jieba
a=jieba.add_word("奇才队控球后卫约翰沃尔是NBA超级巨星")
b=jieba.lcut("奇才队控球后卫约翰沃尔是NBA超级巨星")print(b)
L'interface d'exécution est la suivante :
Point clé : jieba.lcuts(s), peut effectuer une segmentation précise des mots sur la chaîne s et renvoyer un type de liste.
————————————————
Lien de l'article de référence :
https://cloud.tencent.com/developer/article/2154756
https://blog.csdn.net/weixin_61631131/article/details/124274495