、IN
ジェンセンの不平等:
関数fが凸関数である場合は、次の式が存在します。
- \(F(\シータX +(1- \シータ)Y)\当量\シータF(X)+(1- \シータ)F(Y)\)
若\(\ theta_1、\ cdots、\ theta_k \ geq0、\ theta_1 + \ cdots + \ theta_k = 1 \) ;则。
- \(F(\ theta_1 X_1 + \ cdots + \ theta_k X_K)\当量\ theta_1f(X_1)+ \ cdots + \ theta_kf(X_K)\)
- \(F(E(X))\当量E(F(X))\)
- 場合にのみ\(P(X = E(X-))。1 = \) 、すなわち\(X- \)は、等式が成り立つときに一定であります
凹関ジェンセンの不等式に適用された場合、不平等は逆方向に署名します。
EMアルゴリズム
最尤パラメータ推定問題と密接に関連するEMのアイデア。分散パラメータを持つ単純なパラメータ(同じクラス)で最尤推定又はモーメント推定値分解を用いて推定しました。パラメータと同一分布混合パラメータ(複数のカテゴリ)がEMの使用を考えていると推定した場合。EMアルゴリズムは、そう、我々は両方の初期状態では、推定2つのパラメータAとBを知りたいと仮定することは不明であるが、あなたはAさんBさんの情報を得ることができる情報を知っていれば、今度は、Bを知るようになるだろうA. 最初は、Bの値の推定値を得るために、いくつかの初期値を与えることを検討し、Bは、現在の値から開始し、Aの再推定値は、このプロセスが収束するまで継続します。
EM導出(離散値)
- 所与の訓練サンプルのM (\ \ {^ {X(1)}、{Xは^(2)}、\ cdots、X ^ {(M)} \} \) 、独立したサンプルの間、サンプルはモデルを識別するためにパラメータ\(\シータ\) 、モデルパラメータの最大対数尤度関数の分布は次のように
- 対数尤度関数:\(L(\シータ)= \ ^ m_Low SUM = {I} 1つのログ(P(X ^ {I}; \シータ))\)。
\(\シータ= arg_ \最大\和^ M_ {i = 1}ログ(P(X ^ {I}シータ; \シータ))\)
暗黙的データは、サンプルデータ内に存在すると仮定し\(Zは= \ {^ {Z(1)}、{Z ^(2)}、\ cdots、Z ^ {(K)} \} \) 、この時点で最大に数分布モデルの尤度関数は次のよう:
\(\シータ= arg_ \最大\和^ M_ {i = 1}ログ(P(X ^ {I}シータ; \シータ))\)
\(= arg_ \最大\和^ M_ {i = 1}ログ(\ sum_ {Z ^ {(I)}} P(Z ^ {(I)})P(X ^ {(I)}シータ| Z ^ {(I)}; \シータ))\)
\(= arg_ \最大\和^ M_ {i = 1}ログ(\ sum_ {Z ^ {(I)}} P(シータX ^ {(I)}、Z ^ {(I)}; \シータ) \)
- 分布Zが仮定\(Q(Z; \シータ)を\) 、および\(\ sum_zQ(Z; \シータ)= 1 \)、\ (Q(Z; \シータ)\ geq0 \)(Zがある場合連続は、次いでQ)は、積分記号の総和記号を交換する必要がある、確率密度関数であり、それは、以下の式を有します:
- \(L(\シータ)= \和^ M_ {i = 1}ログ(\ sum_ {Z ^ {(I)}} P(X ^ {(I)}、Z ^ {(I)}; \シータ)\)
- \(= \和^ M_ {i = 1}ログ(\ sum_ {Z ^ {(I)}}、Q(Z ^ {(I)}; \シータ)\ FRAC {P(X ^ {(I)} 、Z ^ {(I)}; \シータ)} {Q(Z ^ {(I)}; \シータ)} \)
- ジェンセンの不等式凹関
- \(L(\シータ)\ GEQ \和^ M_ {i = 1} \ sum_ {Z ^ {(I)}}、Q(Z ^ {(I)}; \シータ)ログ(\ FRAC {P(X ^ {(I)}、Z ^ {(I)}; \シータ)} {Q(Z ^ {(I)}; \シータ)} \)
- ジェンセンの不等式の性質、および\(\ sum_zQ(Z; \シータ)= 1 \。) :
- \(\ FRAC {P(X、Z; \シータ)} {Q(Z、\シータ)} = C \)
- \(\ RIGHTARROW Q(Z; \シータ)= FRAC {P(X、Z; \シータ)} \ {C} = \ FRAC {P(X、Z; \シータ)} {C \ sum_zQ(Z; \シータ)} \)
- \(\クワッド= \ FRAC {P(X、Z; \シータ)} {\ sum_zp(X、Z; \シータ)} \)
- \(\クワッド= \ FRAC {P(X、Z; \シータ)} {P(X; \シータ)} \)
- \(\クワッド= P(Z | X; \シータ)\)
- ビューの確率の観点から、\(P(Z | X; \シータ)\)モデルパラメータθの確率を表し、XIの条件の下で、ziは取ることです。
- 上記の式の結果に\(L(\シータ)\ )
- \(L(\シータ)= \和^ M_ {i = 1}ログ(\ sum_ {Z ^ {(I)}} P(Z | X; \シータ)\ FRAC {P(X ^ {(I) }、Z ^ {(I)}; \シータ)} {P(Z | X; \シータ)} \)
- \(\シータ= arg_シータ最大L \(\シータ)\)
EMアルゴリズムのプロセス:
- ディストリビューションの初期化パラメータ:
- イテレーションのJ:
- ステップE:隠れ変数の所望の関数の確率分布を推定\(P-(Z | X - ; \ \シータ^ J))を。
- ステップM:所望のパラメータの再推定分布関数。\(\シータ^ {J + 1} = arg_シータ最大L \(\シータ)\)
- \(\シータ^ {J + 1} \) 収束しました
EMアルゴリズムは、証明するために収束します
これは、増加する反復プロセスで対数尤度関数の値を証明しています
- \(\和^ M_ {i = 1}ログ(P(X ^ I; \シータ^ {J + 1}))\ GEQ \和^ M_ {i = 1}ログ(P(X ^ I; \シータ^ {J}))\)
で:
- \(P(X | \シータ)= \ FRAC {P(X、Z | \シータ)} {P(Z | X、\シータ)} \)
得られ対数式の簡素化:
- \(logPを(X | \シータ)=のlogP(X、Z | \シータ)-logP(Z | X、\シータ)\)
ことにより、\(\ sum_zQ(Z; \シータ)= \ sum_zp(Z | X-; \シータ)= 1 \。) 、ノート:
- \(L(\シータ、\シータ^ J)= \ sum_ {i = 1} ^ m個の\ sum_zp(Z | X ^ I; \シータ^ J)のlogP(X ^ I、Z; \シータ)\)
- \(H(\シータ、\シータ^ J)= \ sum_ {i = 1} ^ m個の\ sum_zp(Z | X ^ I; \シータ^ J)のlogP(Z | X ^ I、\シータ)\)
対数尤度関数を書き込むことができます
- \(\ sum_ {i = 1} ^ mlogp(X ^ I | \シータ)= L(\シータ、\シータ^ J)-H(\シータ、\シータ^ J)\)
それは、式
- \(\ sum_ {i = 1} ^ mlogp(X ^ I | \シータ^ {J + 1}) - \ sum_ {i = 1} ^ mlogp(X ^ I | \シータ^ J)\)
- \(\クワッド= L(\シータ^ {J + 1}、\シータ^ J)-L(\シータ^ {J}、\シータ^ J) - (H(\シータ^ {J + 1}、\シータ^ J)-H(\シータ^ {J}、\シータ^ J))\)
理由は次のとおりです。
- \(L(\シータ^ {J + 1}、\シータ^ J)-L(\シータ^ {J}、\シータ^ J)> 0 \)
- \(H(\シータ^ {J + 1}、\シータ^ J)-H(\シータ^ {J}、\シータ^ J)= \ sum_ {i = 1} ^ m個の\ sum_zp(Z | X ^ I; \シータ^ J)ログ\ FRAC {P(Z | X ^ I、\シータ^ {J + 1})} {P(Z | X ^ I、\シータ^ J)} \)
- \(\クワッド\当量\ sum_ {i = 1} ^ MLOG(\ sum_zp(Z | X ^ I; \シータ^ J)\ FRAC {P(Z | X ^ I、\シータ^ {J + 1}) } {P(Z | X ^ I、\シータ^ J)})= 0 \)
所以:
\(\和^ M_ {i = 1}ログ(P(X ^ I; \シータ^ {J + 1})) - \和^ M_ {i = 1}ログ(P(X ^ I; \シータ^ {J}))\ geq0 \)
GMM-EM
- GMM(ガウシアン混合モデル、ガウス混合モデル)は、線形重ね合わせのガウスモデルアルゴリズムの複数の混合物であることを意味します。各モデルは、ガウスコンポーネントと呼ばれています。GMMは、それ自体が存在する分散アルゴリズム記述されたデータであります
- アプリケーションシナリオ:一般的用途に使用されるGMMクラスタリングアルゴリズム、コンポーネントの数は、カテゴリの数と考えることができます。