LDAトレーニングプロセス(ギブスサンプリング)


推定される出力パラメータを収束し続けるために、寸法所与他の寸法の現在の変数値に、寸法の第1の確率ベクトルを選択する(ギブスサンプリング)をサンプリングギブス。具体的には、

各文書はランダムに割り当てられたWW各単語にランダム1.トピック数ZZ
2. WW回数各トピックZIZIの下に表示された単語の数、及びWWの面で話題ZIZI nnは、各文書の出現回数
3。すべての単語は、各トピックZ1に割り当てられたWW現在の単語を推定するために、他のすべての単語のテーマ分類に従って、現在のトピックの分布のZIZIを除外WW、Z2、...、zkz1、 Z2、...、 ZK確率、その計算のP(ZI | ZI、D、W)P( ZI | ZI、D、W)(ギブス更新ルール))。現在の単語がすべてのトピックに属し取得、Z2、...、zkz1、Z1 、...、Z2を新しいトピックz1z1を再サンプリング単語の確率分布をZK。件名と同じように連続して次の単語、および各文書の配布下の収束トピックまでθnθnトピック配布φkφkの各単語を更新しました。
推定される。4.最終的な出力パラメータ、θnθnとφkφk、亜鉛に関連する各単語、KZN、kが得られます。


すべての文書のすべての単語のためのLDAは、テーマ索引を持っています。しかし、文書クラスタリングの観点から、このテーマである、LDA文書は、統一されたクラスタのラベルではなく、各文字は、クラスタのラベルを持っています。LDAは、各単語が異なるカテゴリに分類する可能性があり、各ドキュメントは別のカテゴリに属している可能性があります。多数の反復した後、トピックの分布と文字が比較的安定したディストリビューションは、LDAモデルの収束比較的良好であるです。

おすすめ

転載: www.cnblogs.com/lxt-/p/12125352.html