1, introduction de base à la bibliothèque jieba
(1), jieba Présentation de la bibliothèque
jieba est un excellent mot de bibliothèques tiers chinois
- les Chinois ont besoin d'obtenir un mot de texte unique par mot
- jieba mot chinois est de bonnes bibliothèques tierces, la nécessité d' une installation supplémentaire
- bibliothèque jieba offre trois modes mot, juste le plus facile à maîtriser une fonction
(2), mot de jieba principe
Jieba compter sur un thésaurus de mots chinois
- utiliser un dictionnaire chinois pour déterminer la probabilité d'association entre les personnages
- entre la probabilité de gros caractères composés de phrases, les résultats de la formation des mots
- En plus de mot, les utilisateurs peuvent également ajouter des phrases personnalisées
2, les instructions de la bibliothèque jieba
(1), mot de jieba de trois modes
Mode de précision, le mode plein, en mode moteur de recherche
- modèle exact: la séparation du texte coupe précise, il n'y a pas de mot de redondance
- mode plein: tous les mots possibles dans le texte sont numérisés, redondants
- Mode de recherche du moteur: le mode précis sur la base de la re-segmentation à long terme
(2), jieba bibliothèque de fonctions communes
3, jieba Exemple d'application
4, l'utilisation des statistiques relatives aux bibliothèques de trois apparitions dans la tâche Romance
jieba importation TXT = Ouvrir ( "D: \\ Trois Royaumes txt", "R & lt", encoding = '8 UTF-.') lecture (). mots = jieba.lcut (TXT) mode # en utilisant le mot texte exact compte # = {} stockée sous la forme de mots clés et le nombre d'occurrence pour mot dans les mots: SI len (mot) == 1:. # mots individuels ne sont pas comptés Continuer else: comtes [mot] = counts.get ( mot, 0) + 1 # à travers tous les mots, qui se produit une fois que toutes les valeurs correspondant plus 1. articles list = (counts.items ()) # paires de valeurs de clé dans une liste Items.Sort (key = lambda x: x [1 ], reverse = true) # être trié par ordre décroissant en fonction du nombre de mots apparaissant pour I dans la plage (15): mot, COUNT = articles [I] Imprimer ( "{0: <. {} 1. 5:>}. 5" .format (mot, nombre))
Les statistiques sur le nombre de fois plus que les quinze premiers noms, Cao Cao est en effet la génération de la dignité, la première place bien méritée, mais nous aurons encore besoin de trouver pour obtenir les données pour un traitement ultérieur, comme des mots inutiles, quelques mots en double sens.