Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois
- Le texte chinois doit obtenir des mots individuels grâce à la segmentation des mots
- Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois, qui nécessite une installation supplémentaire
- La bibliothèque Jieba propose trois modes de segmentation de mots, à savoir: mode précis, mode complet, mode moteur de recherche
--- Mode précis: coupez le texte avec précision sans redondance
--- Mode complet: scannez tous les mots possibles dans le texte, avec redondance
--- Mode moteur de recherche: en fonction du mode précis, les mots longs sont à nouveau segmentés
Fonctions communes
- jieba.lcut (str): mode précis, retourne un résultat de segmentation de mot de type liste
- jieba.lcut (str, cut_all = True): mode complet, retourne un résultat de segmentation de mot d'un type de liste, il y a redondance
- jieba.lcut_for_search (str): mode moteur de recherche, retourne une liste de résultats de segmentation de mots, il y a redondance
- jieba.add_word (mot): ajouter un nouveau mot au dictionnaire de segmentation de mots
Des exemples