EMアルゴリズム - 完全な導出

前編既にEMプロセスは、コイン投げた場合と視覚の目標認識するガウス分布に引用パラメータ推定の収束がおおよそ推定パラメータを得られるまで、EステップおよびMステップ、連続的なサイクルに分割されていますここ言っても過言ではない、これは直接波を導出、栗を言っていません。

ジェンセンの不等式

真には:

  • 凹状の機能、すなわち"の形状\(\ bigcap \) "関数\(F(X)\)

  • \(\ lambda_j \ GE 0 \)
  • \(\和\制限_j \ lambda_j = 1 \) 確率変数の分布に類似しています

前提条件の下では、不平等があります:

\(F(\和\制限_j \ lambda_j X - jが)\ GE \和\制限_j \ lambda_j F(X - jが)\)

恒久的施設は、その後、不平等はジェンセンの不等式がああ、(合計が最後である、ああ、時々范雲)やや少ない直感的であると呼ばれています。

もう少し直感的にするために、考える\(\ラムダ\)のみの二つの値、すなわち:

\(\ lambda_1 = 1-T \\ \ lambda_2 = 1 \)

\(ここで、0 \ leqslant T \ leqslant 1 \)

" \(\ Bigcap \) "関数f(x)は、いくつかの区間[A、B]で、の範囲内の点を構築する\(X_T \)

場合、\(X_T =(1 + T)+ A TB \。)があります。

\(F((1-T)A + TB)\ GE(1-T)F()+ TF(B)\)

凸事実と前にここに書かれて、それがない場合は直接、そして理解するために1秒からスケッチを描き、まったく同じです。

二つの端「であるように、関数の、B値を指す結ぶ直線の右側に、左の値の関数である(\ \の\ bigcapを)」、それは直線関数値に避けられない上に

数学的帰納法により、時にM> 2:

\(F(\和\限界_ {J = 1} ^ M \ lambda_j X - jが)\ GE \和\限界_ {J = 1} ^ M \ lambda_j F(X - jが)\)

EMアルゴリズムが導出されます

与えられた数を仮定N含む独立した学習サンプルのデータセットを、\(D = \ {X_1、X_2、... X_3 x_nに関する)\} \)確率モデルフィットする\(P(X、Z)を \ であり、これは対数尤度関数(対数尤度)があります。

なぜ、乗算は加算となり、ログインそれを言うことを憎む、と彼は血を嘔吐を繰り返す必要があります

可能性、前ログなしである:\(L(\シータ)= \のProd \ _制限} {I = ^ NP 1(X; \シータ)\)関節確率さて、最大サンプル

\(L(\シータ)= \和\限界_ ^ {I 1 =} N P(X \ログ; \シータ)\)

$ = \和\限界^ {I 1 =} N \和\制限ログ {Z} P(X、Zを; \シータ)$

理解

\(\和\限界_ { Z} P(X、Z; \シータ)\) 指定された\(\シータ\)前提の下で、その結合確率Xで、Z

各個々のデータの生成のために、同じでコインを投げる前に、(暗黙ファクターzあるコインは、コインや硬貨A Bから、この試験の終わりに、トス

P(X、Z)に影響を与える各Z因子は、同時確率分布である。すべてのzを考慮し、それはすべての確率が設定されています。

  • 以下のために(P(X; \シータ\ )\) 直接X-で観測された\(\シータ\)より困難(神のない視点がない、コインを投げるために、私は、生成コインを投げた結果であるかわかりません
  • \(Z ^ {(I) } \) されている隠れ変数は、(潜在)、これを観察することができれば\(Z ^ {(I) } \) EMアルゴリズムは、この問題を解決するために使用され、予測パラメータが容易になりますです

EMは、それを2つの段階に分けてアルゴリズム:

  • ステップEにおいて、構築物\(L(\シータ)\ ) (所定の下限関数の\(\シータ\)は Z来ます)
  • ステップMにおいて、最大限下限関数を

コインを投げて以下の直感的な、それが想起される栗一部は、ここでzはであるから確率はAまたはB(各試行)

セット\(Q_I \) すなわち、Z分布の確率である(\ \ SUM \制限_ {Z} Q_I(Z)= 1 \) 連続変数のZ場合である(\ \ SUM \ RIGHTARROW \ int_z \) )、

上記のための対数尤度関数

\(= \和\限界_ {iは1 =} ^ N \ \和\制限が_ {Z} P(X_I、z_iログ; \シータ)\(1)\)

Pの一部ではなく、掛けとで割った \(Q_I(z_i)\)高校のドロップのように、この技術を「列数の二乗またはSUMクラック」、数式を変更しません

$ = \和\限界iが\和\制限ログ {z_i} Q_I(z_i)\ FRAC {P(X_I、z_i; \シータ)} $ {Q_I(z_i)}(2)

ログ機能は、凹面、レノボ・ジェンセン不平等であります

\(F(\和\制限_j \ lambda_j X - jが)\ GE \和\制限_j \ lambda_j F(X - jが)\)

即ち、ログF(に関して); \(\ SUM \ _制限} {z_i Q_I(z_i)\ SUM \ _Jに対応するが、\ \ lambda_jを制限し)、最後のペア\(X - jが\)

\(\ GE \和\ limits_ {I} \和\ limits_ {z_i} Q_I(z_i)\ログ\ FRAC {P(X_I、z_i; \シータ)} {Q_I(z_i)} \(3)\)

これは、外部の関数に抽出された関数パラメータ内の1と類似していると、まだ理解していない場合は、書き込みの論文凸で振り返る前に、

とき、それは等しくなるように時間がかかりますか?

すなわち、場合\(\ FRAC {P(X_I 、z_i; \シータ)} {Q_I(z_i)} = C \) 一定時間、(2)及び(3)同一であるです。

こと\(P(X_I、z_i; \シータ)= C \ * Q_I(z_i)\) で\(\シータ\)セット、および隠れ変数の同時確率分布は、ZがZ分布であり、xは線形関係

以来、\(\ SUM \ limits_は{z_i} Q_I(z_i)= 1 \) 場合\(Q_I(z_i)\)与えられ(X_Iとz_i \)\ 事後確率分布は、このようにして得られました下の尤度関数のようにバインドされ、

よれば、合計確率(事後)とベイズ式:

\(Q_I(X_I)= \ FRAC {P(X_I、z_i; \シータ)} {\和\限界_ {z_i} P(X_I、z_i; \シータ)} \)

\(= \ FRAC {P(X_I、z_i; \シータ)} {P(X; \シータ)} \)

\(= P(z_i | X_I、\シータ)\)

与えられたの要件と同等の\(\シータとX_I \)場合、のz_i見つけ条件付き確率、案の定、それはベイズ式に表示されますどのように重要なの深い理解を

区Yiboを返すために、ベイズ式:

セットA1、A2、A3 ...完全なイベント・グループを構成する、任意のBのためのイベントがあります:

\(P(a_iを| B)= \ FRAC {P(a_iを)P(B | a_iを)} {\和\限界_ {i = 1から} ^ N P(a_iを)P(B | a_iを)} \)

上記の限り、我々が取るとして\(Q_I(z_i)\)の値を与えられた\(\シータとX_I \)時間の事後確率分布、我々は保証することができます:

\(\ FRAC {P(X_I、z_i; \シータ)} {Q_I(z_i)} \)

(ターンプッシュで)一定の値は、それが一定であるため、それは、あるフロント(3)それはすなわち、等号を取ることができますを置きます:

\(\和\限界_ {iは1 =} ^ N \和\限界_ {Z} P(X_I、z_i \ログ; \シータ)= \和\ limits_ {I} \和\ limits_ {z_i} Q_I( z_i)\ログ\ FRAC {P(X_I、z_i; \シータ)} {Q_I(z_i)} \)

結果として、より低い尤度関数の結合の等価物を与えるステップE、次いでMステップにおいて、溶液のパラメータ(3)最大時間 (\ \シータ\)は、次いで、E上記工程Mを繰り返します。

E-步:各iについて

\(Q_I(z_i)= P(z_i | X_I; \シータ)\)

M-ステップ、更新\(\シータ\)

\(\シータ= argを\最大_ \シータ\和\ limits_ {I} \和\ limits_ {z_i} Q_I(z_i)\ログ\ FRAC {P(X_I、z_i; \シータ)} {Q_I(z_i) } \)

....

ループが収束するまで、推定されたパラメータ\(\シータ\)しかし、それが収束しない場合は?だから、波を証明しなければならない、EMアルゴリズムが収束ああ

証明EMアルゴリズムの収束

仮定(\ \シータ^ {(T )} と\シータ^ {(T + 1 )} \) 認定されるように、EMアルゴリズムの2つの連続工程のパラメータ値である\(L(\シータ)\ ) のみ、収束ライセンスが必要です:

\(L(\シータ^ {(T)})\当量のL(\シータ^ {(T + 1)})\)

EMアルゴリズムは、尤度関数が単調に増加するようにすることができます

ジェンセン上記不等式に関して、他の撮影条件を取得由来\(Q_I(z_i)^ { (T)} \) アプローチです。

\(Q_I ^ {(T)}(z_i)= P(z_i | X_I; \シータ^ {(T)})\)

この状態で、すなわち、その結果、撮影したジェンセンの不等式のように:

\(L(\シータ^ {(T)})= \和\ limits_ {I} \和\ limits_ {z_i} Q_I(z_i)\ログ\ FRAC {P(X_I、z_i; \シータ^ T)} { Q_I(z_i)} \)

パラメーター\(\シータ^ {(T + 1)} \) である方法値式の最大値を超え、それが結合している\(Lを(\シータ^ { (T + 1)})\ GE 1(\シータは^ {( t)は})\) 波を開始しました。

\(L(\シータ^ {(T + 1)})\ GE \和\ limits_ {I} \和\ limits_ {z_i} Q_I ^ T(z_i)\ログ\ FRAC {P(X_I、z_i; \シータ^ {(T + 1)})} {Q_I ^ T(z_i)} \(4)\)

\(\ GE \和\ limits_ {I} \和\ limits_ {z_i} Q_I ^ T(z_i)\ログ\ FRAC {P(X_I、z_i; \シータ^ T)} {Q_I ^ T(z_i)} \ (5)\)

\(= L(\シータ^ {(T)})\(6)\)

  • 不平等の性質のため(4)が好調をセットにバインドされています
  • (5)が成立の必然的なプロセスの最大値であります
  • (6)ジェンセンの不等式のアプリケーションに等しい方法を取ります

証明その\(L(\ ^ {シータ(T)})\のLeq L(\シータ^ {(T + 1)})\) 即ち、EMアルゴリズムは収束方法です

概要

最初は、理解することであるパラメータ推定を行っている、あなたは統計の基本を見直すために、または栗パートI投げるコインを理解する必要があります

コアは、使用していますジェンセン、波を理解するために、自然のいくつかを検討する必要性の凸関数を不等式

まだ物事の導出方法、最尤推定ログ(と、乗算エッジの追加

コアスキルが推定される合計確率とベイズ式を、このようなLDA、ロジスティック回帰、ベイズ...これらのアルゴリズムの用途として、本当にあまりにも重要な理解します、。

収束の証明は、実際には、単にいくつかは、スキルを推論、非常に興味深いものでした。

全体的に、EMアルゴリズムは、私は非常に簡単ではないと感じ、理解するだけでなく、想像するのは難しい、限り喜んとして、アインシュタインはまあそれを置くとして、当然のことながら、現在の経済および精神的な二重のジレンマにお互いを奨励するために付着していません自分自身で:

忍耐と忍耐力は常に収穫を取得します

おすすめ

転載: www.cnblogs.com/chenjieyouge/p/12057746.html