Une certaine compréhension personnelle de la perplexité de la LDA

Je suis aux prises avec ce problème depuis longtemps. Pendant cette période, je suis principalement allé sur le forum de gensim google, et je l'ai recherché avec des mots-clés sur StackOverflow et StackexChange topic number perplexity, et j'ai obtenu ces interprétations très vagues:

1. Interprétation de log_perplexity () de gensim:

Selon le code source de gensim3.8.3, le log_perplexity()résultat est perwordboundque les perwordboundétapes de calcul sont les suivantes:

Premier appel bound(), via un morceau de corpus W ⃗ \ vec {W}W Calculer le log de vraisemblance logp (W ⃗) logp (\ vec (W)) de l' ensemble du corpusl o g p (W ) , qui estE q [logp (W ⃗)] - E q [logq (W ⃗)] Eq [logp (\ vec {W})] - Eq [logq (\ vec {W})]E q [ l o g p (W ) ]-E q [ l o g q (W ) ]

Ensuite, utilisez logp (W ⃗) logp (\ vec (W))l o g p (W Divisez la limite de ) par la taille du corpus entierNet obtenezperwordbound-la comme valeur de retour de log_perplexity ().

Pendant l'appel de fonction, 2 - perwordbound 2 ^ {- perwordbound}2- P e r w o r d b o u n d est imprimé comme perplexité. Cette perplexité prend 2 comme base et est la même que:
D. Blei, A. Ng et M. Jordan. Allocation de Dirichlet latent. Journal of Machine Learning Research, 3: 993–1022, janvier 2003
Hoffman, Blei, Bach: Online Learning for Latent Dirichlet Allocation, NIPS 2010.
La perplexité avec e comme base définie dans ces deux articles est différente, mais les idées sont fondamentalement les même.

La question et la réponse ici ont des instructions similaires:
https://stats.stackexchange.com/questions/322809/inferring-the-number-of-topics-for-gensims-lda-perplexity-cm-aic-and-bic?r = Résultats de la recherche

2. Interprétation de la relation entre la perplexité et le nombre de sujets:

Tout d'abord, la fonction log_perplexity () ne normalise pas le nombre de sujets, donc le nombre de sujets différents ne peut pas être directement comparé:
Insérez la description de l'image ici
Portail: https://groups.google.com/g/gensim/c/krs1Uytq5bY/m/ ePZXIKfwGwAJ

Deuxièmement, Radim, l'auteur du paquet gensim, est apparu et a répondu que la perplexité n'est pas un bon indicateur de la qualité du sujet:
Insérez la description de l'image ici
Portal: https://groups.google.com/g/gensim/c/TpuYRxhyIOc

Je suppose que tu aimes

Origine blog.csdn.net/yocencyy/article/details/111147746
conseillé
Classement