Je suis aux prises avec ce problème depuis longtemps. Pendant cette période, je suis principalement allé sur le forum de gensim google, et je l'ai recherché avec des mots-clés sur StackOverflow et StackexChange topic number perplexity
, et j'ai obtenu ces interprétations très vagues:
1. Interprétation de log_perplexity () de gensim:
Selon le code source de gensim3.8.3, le log_perplexity()
résultat est perwordbound
que les perwordbound
étapes de calcul sont les suivantes:
Premier appel bound()
, via un morceau de corpus W ⃗ \ vec {W}WCalculer le log de vraisemblance logp (W ⃗) logp (\ vec (W)) de l' ensemble du corpusl o g p (W) , qui estE q [logp (W ⃗)] - E q [logq (W ⃗)] Eq [logp (\ vec {W})] - Eq [logq (\ vec {W})]E q [ l o g p (W) ]-E q [ l o g q (W) ]。
Ensuite, utilisez logp (W ⃗) logp (\ vec (W))l o g p (WDivisez la limite de ) par la taille du corpus entierN
et obtenezperwordbound
-la comme valeur de retour de log_perplexity ().
Pendant l'appel de fonction, 2 - perwordbound 2 ^ {- perwordbound}2- P e r w o r d b o u n d est imprimé comme perplexité. Cette perplexité prend 2 comme base et est la même que:
D. Blei, A. Ng et M. Jordan. Allocation de Dirichlet latent. Journal of Machine Learning Research, 3: 993–1022, janvier 2003
Hoffman, Blei, Bach: Online Learning for Latent Dirichlet Allocation, NIPS 2010.
La perplexité avec e comme base définie dans ces deux articles est différente, mais les idées sont fondamentalement les même.
La question et la réponse ici ont des instructions similaires:
https://stats.stackexchange.com/questions/322809/inferring-the-number-of-topics-for-gensims-lda-perplexity-cm-aic-and-bic?r = Résultats de la recherche
2. Interprétation de la relation entre la perplexité et le nombre de sujets:
Tout d'abord, la fonction log_perplexity () ne normalise pas le nombre de sujets, donc le nombre de sujets différents ne peut pas être directement comparé:
Portail: https://groups.google.com/g/gensim/c/krs1Uytq5bY/m/ ePZXIKfwGwAJ
Deuxièmement, Radim, l'auteur du paquet gensim, est apparu et a répondu que la perplexité n'est pas un bon indicateur de la qualité du sujet:
Portal: https://groups.google.com/g/gensim/c/TpuYRxhyIOc