マクロを理解します
LDAは二つの意味を持っています
- 線形弁別(線形判別分析)
- (LDAと呼ばれる潜在ディリクレ配分、)潜在的ディリクレ配分
後者の論文は、それは多くの場合、浅い意味解析で、モデルは、テキストの意味解析に有用です。
LDAトピックモデルが考えられたモデルである確率分布の形で与えられている各ドキュメントのドキュメントセットのテーマ、ので、いくつかの文書が自分のテーマ(分布)に出てくるを抽出した後、我々は(分布)を分析することで、被写体に応じてすることができますテーマ別のテキストクラスタリングまたは分類。同時に、文書は単語のグループで構成され、単語と単語の順番の間に関係がないことを、言葉モデルの典型的なバッグです。
もし上記のいずれかの場所で単語を見ることができ、その後、少しガチョウは私が一度に初見ではわかりませんでした。
あなたはプレーンな言語を使用している場合は懸念している、我々は文書の集合があるとし、M文書は、第1のD文書のため、ある単語「ジェイ」であるそのうちの一つ、言葉の束に表示され、その後、この言葉によって、私たちは理解することができますドキュメントのテーマは、「エンターテインメント」ことが、また、本文書に表示され、「ヤオミン」、「日ヤン」、「張部門」これらの言葉、文書は「スポーツ」テーマの確率で大幅に増加されます、LDAモデルがあること与えられた文書によると、文書のテーマが何であるかを推測し、各トピックの確率の大き与えられました。
だから我々は、今述べている文書について、「ジェイ」、「ヤオミン」、「日ヤン」、「張部門」「エンターテインメント」のテーマの確率は1/4で、3/4の「スポーツ」テーマの確率は、この時点で、LDAモデルは、このドキュメントのテーマと「スポーツを。」
実際には、そんな思いLDAトピックモデルの考え方は、まだ、少し無知非常に単純な、しかし内部の詳細に固有のものです。
些細なしかし必要な知識
ガンマ関数
ガンマ関数は、実際には、具体的にその数学的な美しさは、私たちは次のことを覚えて、この記事では説明しません、ベータ版の背後分布とディリクレ分布のために準備しています
ガンマ関数の定義:
部分積分の方法により、この再帰的な性質は、以下の機能を持っていると推定することができます。
したがって、ガンマ関数は実数の階乗組のスプレッドとして使用することができ、以下の特性を有します。
ベータ分布
この時点で、数学的概念に私たちをリード
- 事後分布と事前分布が同じであれば、事前分布と事後分布が呼び出されるベイズジャンルは、コンジュゲートの分布、事前分布の尤度関数と呼ばれる複合体が前
ベータ分布とは何か、それが参照する$の定義のセット連続確率分布の(0,1)$間隔、二つのパラメータ$ \アルファ、\ベータ> 0が存在する $、 人気の説明は、ベータ版では確率分布として見ることができます確率分布、あなたは、それはあなたがすべての可能な確率の大きさの確率を指摘与えているどのくらいのものかわからない確率が、その確率密度関数
どのBETEの関数であり、
ベータ分布は、二項共役事前分布であり、ベータ分布がBetaf用の二項分布のP値の可能性が平均として推定することができる確率変数を、分散説明します
ベータ二項共役
まず、ベイズパラメータ推定の基本的なプロセスを覚えておく必要があり、以下のとおりです。
知識データ+ =事後分布の事前分布
より一般的には、非負の実数の$ \アルファのため、\ベータ$、我々は次のような関係を持っています:
私たちは、パラメータの事前分布と事後分布はベータ分布の形に維持することができることがわかります。
ディリクレ分布
ディリクレ分布は、多変量確率分布、多変量一般化ベータ分布の連続セットです。
そのうち$ \ vecの\アルファ$は、パラメータディリクレ分布です。ディリクレ分布は、多項分布共役事前分布です。
これは、期待されています
詳細かつ細心
- 各文書のトピック分布
- 各トピック語の分布
すべてのディストリビューションは、Kのテーマに基づいているように私は、テーマKの数を前提としています。
つまり、文書事前分布LDAのテーマはディリクレ分布であると仮定すると、任意のドキュメント$ d個の$のために、そのトピック分布する$ \はに$をtheta_d:
$$ \ theta_d =ディリクレ(\ VEC \アルファ)$$
これは$ K $次元ベクトルで、$ \ $アルファ超パラメータ分布、。
LDAの仮定ワードテーマ事前分布はディリクレ分布である、それは、その用語分布$ \のbeta_kの$の任意のトピックの$ kは$、のために、次のとおりです。
$$ \ beta_k =ディリクレ(\ VECの\エータ)$$
これは、$ Vの$次元ベクトルであるの$ \エータの$超パラメータ分布、番号の$ Vの$すべての語彙の単語の代わりに。
次のように任意のデータの最初のワードに11文書の$ D $の$ n個の$のために、我々は$分散$そのテーマ数の$ Z_ {DNを}得eta_dトピックの$ \から分配することができます。
$$ Z_ {DN} =多重(\ theta_d)$$
この番号のテーマは、次のように我々は$ W_ {DN} $の確率分布を見るという言葉を出します:
$$ V_ {DN} =多重(\ beta_ Z_ {{DN}})$$
LDAトピックモデルを理解することの主なタスクは、上記のモデルを理解するために、このモデルであり、我々はディリクレ分布の$ M $ドキュメントのテーマを持っており、データ配信の$ Mの$テーマの番号を対応する数なので、($ \アルファ\ \ theta_d \へ\ VECする Z_ {D} $) 上述得るために使用され得る共役ディリクレマルチ、ベイズ推論法の形成にドキュメントテーマに基づいて、事後分布ディリクレ分布。
ドキュメントの$ Dが$、トピック語$ $ kの数である場合:カウント数分布に対応する^ {(K)} $ $ N_D、として表すことができます。
$$ \ VEC N_D =(N_D ^ {(1)} ^ {N_D(2)}、...、{^ N_D(K)})$$
次のように$ \ theta_dの$の事後分布を得ディリクレマルチ共役を使用します:
ディリクレ$$(\ theta_d | \項目\アルファ+ \事N_D)$$
同様に、テーマや単語の分布のために、我々はディリクレ$ K $テーマと言葉の分布、およびデータ配信$ Kの$テーマの番号を対応する数、そうbeta_kを\する($ \ ETAの\を持っています\ VEC W _ {(\する K)} $)をディリクレマルチ共役の組成物を形成するために、ベイズ推論は、前述の方法用いて得ることができるのMeSHの分布に基づいて、事後ディリクレ分布。
k番目のトピック場合、V番目の単語の数である:$ n_k ^ {(V)} $、分布に対応するカウント数として表現することができるです。
$$ \ n_k = VEC(n_k ^ {(1)}、n_k ^ {(2)}、...、{^ n_k(A)})$$
$ \ beta_kます$得ディリクレマルチ共役を使用して、次のように事後分布を:
ディリクレ$$(\ beta_k | \項目\エータ+ \事n_k)$$
特定の文書に依存しない特定の単語を生成するために、テーマ、その文書のキーワードのトピック分布と分布として独立しています。理解上記の$ことM + K $のグループディリクレマルチコンジュゲートは、LDAの基本原理が理解されるであろう。
参考資料
[1] 人気の理解LDAトピックモデル