Bibliothèque Python tierce Bibliothèque Jieba

Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois

  • Le texte chinois doit obtenir des mots individuels grâce à la segmentation des mots
  • Jieba est une excellente bibliothèque tierce pour la segmentation des mots chinois, qui nécessite une installation supplémentaire
  • La bibliothèque Jieba propose trois modes de segmentation de mots, à savoir: mode précis, mode complet, mode moteur de recherche

--- Mode précis: coupez le texte avec précision sans redondance

--- Mode complet: scannez tous les mots possibles dans le texte, avec redondance

--- Mode moteur de recherche: en fonction du mode précis, les mots longs sont à nouveau segmentés

Fonctions communes

  • jieba.lcut (str): mode précis, retourne un résultat de segmentation de mot de type liste
  • jieba.lcut (str, cut_all = True): mode complet, retourne un résultat de segmentation de mot d'un type de liste, il y a redondance
  • jieba.lcut_for_search (str): mode moteur de recherche, retourne une liste de résultats de segmentation de mots, il y a redondance
  • jieba.add_word (mot): ajouter un nouveau mot au dictionnaire de segmentation de mots

 Des exemples

 

 

Je suppose que tu aimes

Origine www.cnblogs.com/technicist/p/12725617.html
conseillé
Classement