PNL (V): supplément d'extraction mot-clé (corpus et espace vectoriel)

Tout d'abord, le corpus dans un vecteur (gensim)

Après traitement du corpus de base (mot, pour arrêter des mots), il est parfois nécessaire de quantifier, pour faciliter les travaux ultérieurs.

à partir gensim importation dans Corpora, les similitudes, les modèles
 d' importation jieba
 # Étape 1: Déterminer le corpus de corpus et de la peine au juge: 
# . wordlist comme Corpus, corpus , il y a trois phrases, l'équivalent de trois articles 
wordlist = [ ' I comme la programmation « » Je veux devenir beau « » aujourd'hui pour le déjeuner encore « ] 
sentenses = » ce que j'aime ' 
# Étape 2: utilisation d' établir le corpus dictionnaire, qui est marqué sur le numéro de série de chaque mot à attendre dans la bibliothèque, comme ceci: { 'I': 1, 'comme': 2 'programmation': 3, ....} est le premier mot chinois 
text = [[Word pour mot   à jieba.cut (mots)] pour mots dans wordlist] 
Dictionnaire =corpora.Dictionary (texte)
 Imprimer (Dictionnaire)
 # La troisième étape du corpus de chaque statistiques de fréquence de mot de mot, doc2bow chaque mot est une fréquence de statistiques mot, est passé dans une liste 
# Corpus get est à deux dimensions array [[(0, 1), (1, 1), (2, 1)], [(3, 1), (4, 1)], [(5, 1), (6, 1), ( 7, 1), (8, 1), (9, 1)]], ce qui signifie que le numéro mot de fréquence 0 fois apparaissant sont 1, 2 la fréquence d'occurrence de mot est numérotée 1 fois 
corpus = [dictionary.doc2bow (word) pour mot dans le texte]
 Imprimer (Corpus) # get un tableau à deux dimensions, les éléments les plus petits (numéro d'identification de mots, la fréquence des mots)

 

Les résultats du code:

Nous utilisons gensim.corpora.dictionary.Dictionary classe est attribué un numéro entier unique à chaque mot apparaît dans le corpus. Cette opération est une collection de nombre de mots et d' autres statistiques. A la fin, on voit qu'il ya 10 différents corpus de mots, ce qui suggère que chaque document sera représenté par 10 chiffres

fonction doc2bow est principalement utilisé pour faire dic dans un sac de proue du modèle de mots, le nombre d'occurrences de chaque mots différents ont été comptés, et le mot dans ses chiffres, et renvoie le résultat comme un vecteur creux. Le mot de code corpus est un corpus du modèle de sac, dans lequel chaque sous-liste ont exprimé un article.

TFIDF dit avant peut être utilisé pour l'extraction mot-clé, car il croit que plus le mot, plus la valeur TFIDF pour refléter son importance à cet article. Mais TF-IDF être utilisé pour trouver aussi des articles similaires à l'article digérer l'extraction, la sélection des fonctionnalités (extrait des caractéristiques importantes) travail. Si l'étape suivante consiste à sentenses de trois articles et la comparaison de Corpus, le code suivant:

# Quatrième étape: Utilisez le corpus de formation modèle TFIDF 
Modèle = models.TfidfModel (corpus)
 # Si vous voulez voir la valeur de TFIDF, vous pouvez:  
TFIDF = Model [corpus]
 '' ' 
résultat est TFIDF corpus TFIDF valeur de chaque mot 
[(0, ,5773502691896258), (1, ,5773502691896258), (2, ,5773502691896258)] 
[(3, ,7071067811865475), (4, ,7071067811865475)] 
[(5, ,4472135954999579), (6, ,4472135954999579), (7, ,4472135954999579) (8, ,4472135954999579), (9, ,4472135954999579)] 
'' ' 
# Cinquième étape: l' indexation de chaque modèle de phrase TFIDF faciliter la requête de similarité, la valeur entrante lorsque corpus TFIDF 
similitude = similitudes. MatrixSimilarity (TFIDF)
 # le processus sixième étape pour comparer les phrases, premier mot, a reçu la prochaine fréquence des mots, jieba seule chaîne entrante 
SEN = [Word pour motdans jieba.cut (sentenses)] 
SEN2 = dictionary.doc2bow (SEN)
 # alors calculer sa valeur TFIDF 
sen_tfidf = Modèle [SEN2]
 # similitude obtenue avec toutes les phrases, sim est une sortie de réseau 
sim = similitude [sen_tfidf]

https://blog.csdn.net/Lau_Sen/article/details/80436819

Code TFIDF et corpus sen_tfidf et les résultats sont exprimés TFIDF nouvelles phrases à quantification. Beaucoup modèle est basé sur tf-idf à faire, tels que lsi, LDA et ainsi de suite.

Maintenant, chaque phrase devient [(mot numéro d'identification, la valeur de idf), (mot numéro d'identification, la valeur de idf) ....] une telle représentation clairsemée.

Je suppose que tu aimes

Origine www.cnblogs.com/liuxiangyan/p/12481903.html
conseillé
Classement