Python instructions de la bibliothèque jieba

1, introduction de base à la bibliothèque jieba

  (1), jieba Présentation de la bibliothèque

         jieba est un excellent mot de bibliothèques tiers chinois

         -  les Chinois ont besoin d'obtenir un mot de texte unique par mot
         -  jieba mot chinois est de bonnes bibliothèques tierces, la nécessité d' une installation supplémentaire

         -  bibliothèque jieba offre trois modes mot, juste le plus facile à maîtriser une fonction

  (2), mot de jieba principe

         Jieba compter sur un thésaurus de mots chinois

         utiliser un dictionnaire chinois pour déterminer la probabilité d'association entre les personnages
         -  entre la probabilité de gros caractères composés de phrases, les résultats de la formation des mots

         -  En plus de mot, les utilisateurs peuvent également ajouter des phrases personnalisées

2, les instructions de la bibliothèque jieba

  (1), mot de jieba de trois modes

         Mode de précision, le mode plein, en mode moteur de recherche

         modèle exact: la séparation du texte coupe précise, il n'y a pas de mot de redondance
         -  mode plein: tous les mots possibles dans le texte sont numérisés, redondants

         -  Mode de recherche du moteur: le mode précis sur la base de la re-segmentation à long terme

  (2), jieba bibliothèque de fonctions communes


 

3, jieba Exemple d'application

 

 

4, l'utilisation des statistiques relatives aux bibliothèques de trois apparitions dans la tâche Romance

Copiez le code
jieba importation 

TXT = Ouvrir ( "D: \\ Trois Royaumes txt", "R & lt", encoding = '8 UTF-.') lecture (). 
mots = jieba.lcut (TXT) mode # en utilisant le mot texte exact 
compte # = {} stockée sous la forme de mots clés et le nombre d'occurrence 

pour mot dans les mots: 
    SI len (mot) == 1:. # mots individuels ne sont pas comptés 
        Continuer 
    else: 
        comtes [mot] = counts.get ( mot, 0) + 1 # à travers tous les mots, qui se produit une fois que toutes les valeurs correspondant plus 1. 
        
articles list = (counts.items ()) # paires de valeurs de clé dans une liste 
Items.Sort (key = lambda x: x [1 ], reverse = true) # être trié par ordre décroissant en fonction du nombre de mots apparaissant 

pour I dans la plage (15): 
    mot, COUNT = articles [I] 
    Imprimer ( "{0: <. {} 1. 5:>}. 5" .format (mot, nombre))
Copiez le code

 

Les statistiques sur le nombre de fois plus que les quinze premiers noms, Cao Cao est en effet la génération de la dignité, la première place bien méritée, mais nous aurons encore besoin de trouver pour obtenir les données pour un traitement ultérieur, comme des mots inutiles, quelques mots en double sens.

Je suppose que tu aimes

Origine www.cnblogs.com/w2538060594/p/12652429.html
conseillé
Classement