ガウス混合モデル（GMM）を理解するための統一されたフレームワークに従うことを機械学習

I.はじめに

私のブログレコードビューと思考プロセスの唯一の私のポイント。指摘へようこそ私は死角と思いますが、私たちは私たち自身の理解を持つことができることを願っています。

ネットワーク上のデータの多くは、特にB駅UPのこの参照shuhuai008のビデオは私の好みの方法であるかを説明する：詳細の観点から、問題を理解しています。

第二に、理解

統一された機械学習フレームワーク（MLA）：

1.モデル（モデル）
2.戦略（損失）
3.アルゴリズム（アルゴリズム）

型

余談：いわゆるモデル、モデリングプロセスですが、また現実の私達の仮定（観測）は、導入SVM前に、いくつかのように、LRの仮定はこれです：私たちは、超平面を区別するために、これらのデータを使用することができると思います。モデル当社の含蓄誘導バイアスやされる嗜好をまとめました。

ジオメトリ：

観測されたデータのための\（X- = \ {I X ^、X ^ 2 \ cdots、N-X ^ \} \）から確率モデルの生成を生成、| \（\シータ）\ P（X-）、どこ\（\シータ\）は、このモデルのパラメータです。単に知らないので、|（\シータP（X \を \））の形がどうあるべきか、ガウス混合モデル：、我々はすなわち、Kガウスモデルミックスによって生成されたこれらのデータの（誘導選好）を想定\（P（ X）\） Kガウスモデルの重畳から。

ガウス分布の確率密度関数は、複数の重畳されるから（加重平均）
\ [P（X）= \ \; \、|（\ mu_k、\ Sigma_k X）sum_ {k = 1} ^ {K} \ alpha_k P \ sum_ {k = 1} ^ K \ alpha_k = 1、\; \; \ alpha_kの\; 重み値\を表します]

ジオメトリが直接である（P（X）\）\いくつかのモデルが一緒に重み付けとして、直接処理分離されます。
その下方に角度を直接生成データである\（P（x）は\）全体図として、フォーカスのプロセスが生成され、または分割プロセスデータを生成します。

データ生成角度

隠れ変数zを導入する：Z Xがガウス分布に属するのサンプルを表し、Zは、離散確率変数（試料が特定の分布これに属するかどうかを決定することは困難であるので、示される確率変数）です。

ここでは、1つのサンプルの生成処理が理解されるであろう：最初のサンプルにより得られたzがガウス分布であるカテゴリに属する、次にガウス分布（ランダムサンプリング）を使用してサンプルを生成します。
例えば：不均一なダイスは、プロモーター、第一ダイス（ワードTOU 2つのサウンドを読み取る）数を得、次いで、サンプル（ランダムサンプリング）ガウスモデルの図形を生成する想像。サイコロが決定されます：各サンプルのために生成ガウス事前分布モデルが属します。
ある単純：ダイス- >ランダムにサンプリングし、数学的な言語である
\ [P（Z = K） - > N（\ mu_k、\ Sigma_k）\]

から	1	2	\（\ cdots \）	K
P（Z）	\（P_1 \）	\（P_2 \）	\（\ cdots \）	\（p_kの\）

\ [\ sum_ {k = 1} ^ Kのp_k = 1 \]

従って、確率密度関数の書き込みこの点から：
\ [\}開始{P（X）=＆\ {Z} INT_ P（X、Z）=＆DZ \\ \ {Z} INT_ P（X整列| z）はP（z）はDZ \\＆= \ sum_ {Z} P（x | z）はP（Z）\\＆= \ sum_ {k = 1} ^ KのP（X | Z = K）P（ Z = K）\\＆= \ sum_ {k = 1} ^ Kのp_kのP（X | \ mu_k、\ Sigma_k）\端{整列} \]

この時点で、それはまったく同じ式の角度いることがわかります。

ジオメトリ：\（\ alpha_k \）異なる重畳ガウスモデルにおける重み付け値を表します
データ生成角：\（P_K \）は、サンプルは、ガウスモデルのいずれかに属する確率を表します。

使用\（\シータ\）は、すべてのパラメータを表し; \ mu_1、\ mu_2、\ cdots、\ mu_k; \ Sigma_1、\ Sigma_2、\ cdots、\ Sigma_k \（\シータ= \ {P_1、P_2、\ cdots、P_Kを\} \）

戦術

パラメータのセットを取得するために\（\シータ\）、のように\（\シータ\）モデルパラメータの最大値の発生について観察されたデータの確率。

目標を達成するために必要な：
\ [\最大\;のlogP（X- | \シータ）\]

真の最適化目標：
\ [\シータ^ {（T + 1）} = \アルギニン\最大_ {\シータ} \ int_Z \; P（Z | X、\シータ^ {（T）}）\; logP値（X- 、Z | \シータ）\]

どのように参照の種類の異なる方法のEMアルゴリズムの導出との理解このブログ

アルゴリズム

最尤推定値

モデルは現在最尤推定を解決するための直接法を用いて、同様に観察されたデータを書き込み：
\ [\ {} \開始整列ハット{\シータ} {_}＆MLE = \アルギニン\最大_ {\ \シータ} \; logP値（X） \\＆= \のarg \最大_ {\シータ} \;ログ\ prod_ {i = 1} ^ NP（X ^ I）\\＆= \のarg \最大_ {\シータ} \ ; \ sum_ {i = 1} ^ nはログ\ sum_ {k = 1} ^ Kpを（Z ^ i = K）P（X ^ I | \ mu_k、\ Sigma_k）\端{整列} \]

ための\（\ログ）接続されて、追加\（MLE \）数値解の従って使用、方法解析解を得ることができない。勾配降下法、EMアルゴリズム。

EMアルゴリズム

\ [\シータ^ {（T + 1）} = \引数\最大_ {\シータ} \ int_Z \に、P（Z | X、\シータ^ {（T）}）\; logP値（X、Z | \シータ）\] \（Q（\シータ、\のシータ^ {（T）}）= \ int_Z \; P（Z | X、\シータ^ {（T）}）\; logP値（X、Z | \シータ）\）プロファイルでは一般的です\（Q \）機能。

実際には、EMアルゴリズムを用いた政策は依然として最尤推定であるが、異なるオブジェクトの最大化、被写体を変えました。第一の方法（アルゴリズム）であり、私たちは間違った男（最適化されたオブジェクト、機能の喪失、機能を最大化）を得ました。
オブジェクト、メソッドを使用検索した場合（ストーカーの流れを、高いハンサムな寒さ、横暴な兄はストリーム、ここで同等の設定フロー、流れなどボヘミアン放蕩息子を、強制的に男性の親密な、暖かい正直なハードストリーム）、実際には何も問題はありません通りオブジェクトが見つからない場合は、おそらく、群衆のの正しい分類に行きませんでした。たとえば、あなたは自由奔放な放蕩息子は非常に困難な運命王室の姉妹の生活を通して、より多くの瞑想体験を望んでいると、学校に行きたいです。だから、オブジェクトを検索したい二つの方法で変更することができます。

、同じ、またはボヘミアン放蕩息子の流れ（アルゴリズムの変更、または最尤推定）の使用を設定する方法は、\ターゲット用に最適化された素朴なロマンチックな少女グループ（から王室の姉妹のために、ターゲットグループのオブジェクトを見つけるために、ファンのグループを切り替えます、最適化されたオブジェクトまたは機能の喪失）

ターゲットグループと同じでは、人々は彼らのセットを変更\最尤から（ストリームやボヘミアン放蕩息子からハンサムな男性暖かい高低温流れに流入し、別の方法を使用し、王室の姉妹（最適化機能やターゲット変わらず）を愛します勾配降下法に置き換え）

この方法は、人を設定することと等価である、ほとんどの人々のために、自国民に沿って簡単にオブジェクトのセットを見つけるためになるような変化を設定する人は、困難であり、ほとんどの人は彼らの理想的な目標、夢の恋人を探しています、彼らの人々は、この時点で設定変更するつもりこの時間は、多くの労力を必要としています。
より現実的な、従来の方法は、より少ない特定の、特に従来の方法は、MLE（最尤推定）方法として、ターゲットを最適化することができる最適化することができる（\ \のarg \最大_ {たlogP（; \シータ} \ X）\）で行うことはできませんが、GD（勾配降下）が行われ、基本的にすべてのターゲットに対して、現実の世界に適用されることが可能で（誰が設定）ハンサム単に豊富です。言い換えれば、そのような人々は（最適化）が殺害経由で設定するので、自分の設定変更する必要はありません一部の人々、あなたは、異なるグループの多くの姉妹（異なる最適化または最適化目的関数）を引き付けることができます。

EMアルゴリズムの解釈に関するオンライン情報、基本的にはそのプロセスは、詳細に展開されます、特にどのように、式を拡張する方法については、ここで終了します。

モード展開 1：

\（\ sum_ {k = 1
} ^ Klogp（Z ^ i = K | X ^ I、\シータ^ {（T）}）] = 1 \）これは、使用される式などです。この式は1に等しい場合、私は理解していない、あなたはDuokanjibian。

\ [\開始{整列} Q（\シータ、\シータ^ {（T）}）＆= \ int_Z \。P（Z | X、\シータ^ {（T）}）\; logP値（X、Z | \シータ）\\＆= \ sum_ {Z} \ {\ prod_ {J = 1} ^ NP（Z ^ J | X ^ J、\シータ^ {（T）}）\ sum_ {I = 1} ^ N \ログ、P（X ^ I、Z ^ I | \シータ）\} \\＆= \ sum_ {Z ^ 1、\ cdots、Z ^ N} \ {\ prod_ {J = 1} ^ NP（Z ^ J | X ^ J、\シータ^ {（T）}）\ sum_ {i = 1} ^ N \ログ。 P（X ^ I、Z ^ I | \シータ）\} \\＆= \ sum_ {Z ^ 1、\ cdots、Z ^ N} \ {\ログ、P（X ^ 1、Z ^ 1 | \シータ| \シータ）\ prod_ {P（X ^ N、Z ^ N; |）\ prod_ {J = 1} ^ NP（Z ^ J X ^ J、\シータ^ {（T）}）+ \ cdots + \ログJ = 1} ^ NP（Z ^ J | X ^ J、\シータ^ {（T）}）\} \\＆= \ sum_ {i = 1} ^ N \ {\ sum_ {k = 1} ^ K \ログ、P（X ^ I、Z ^ i = K | \シータ）\; P（Z ^ i = K | X ^ I、\シータ^ {（T）}）] \ prod_ {J = 2} ^ N [\ sum_ {k = 1} ^ Klogp（Z ^ i = K | X ^ I、\シータ^ {（T）}）] \} \\＆= \ sum_ {i = 1} ^ n個の\ sum_ { K = 1} ^ Kログ\; P（X ^ I、Z ^ i = K | \シータ）\; P（Z ^ I | X ^ I、\シータ^ {（T）}）\端{整列} \]

実施の形態2を展開：元の表現に由来展開

EMアルゴリズムはGMMに適用した場合、決定\（Q（Z）=を{ P（Z | X、\シータ^ {（T）}）} \）

\ [\開始{整列}ログP（X | \シータ）＆= \ sum_ {i = 1} ^ Nログ\; P（X ^ I | \シータ）= \ sum_ {i = 1} ^ Nログ\ INT_ {Z ^ I} P（X ^ I、Z ^ I | \シータ）DZ ^ iが\\＆= \ sum_ {i = 1} ^ N \ INT_ {Z ^ I} \ FRAC {P（X ^ログI、Z ^ I | \シータ）} {Q（Z ^ I）} Q（Z ^ I）DZ ^ iは\\＆= \ sum_ {i = 1} ^ N \ログ、E_ {Q（Z ^ I ）} [\ FRAC {P（X ^ I、Z ^ I | \シータ）} {Q（Z ^ I）}] \\＆\ GEQ \ sum_ {i = 1} ^ nE_ {Q（Z ^ I） } [ログ\ FRAC {P（X ^ I、Z ^ I | \シータ）} {Q（Z ^ I）}] \\＆= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {Q（Z ^ i = K）}ログ\ FRAC {P（X ^ I、Z ^ i = K | \シータ）} {Q（Z ^ i = K）} \\＆= \ sum_ {I = 1} ^ n個の\ sum_ {k = 1} ^ K {Q（Z ^ i = K）}ログ{P（X ^ I、Z ^ i = K | \シータ）} - \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {Q（Z ^ i = K）} \ログ。{Q（Z ^ i = K）} \\＆= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {Q（Z ^ i = K）}ログ{P（X ^ I、 Z ^ i = K | \シータ）} \\＆= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {P（Z ^ i = K | X ^ I、\シータ^ {（ T）}）} \。\ログ{P（X ^ I、Z ^ i = K | \シータ）} \\ \端{整列} \]

现在求得
\ [\開始{整列} Q（\シータ、\シータ^ {（T）}）＆= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {P（Z ^ I = K | X ^ I、\シータ^ {（T）}）} \。\ログ{P（X ^ I、Z ^ i = K | \シータ）を} \\＆= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ Kの\ FRAC {P（X ^ I | Z ^ i = K \シータ^ {（T）}）P（Z ^ i = K | \シータ^ {（T）}）} {\ sum_ {J = 1} ^ K P（X ^ I | Z ^ i = jの、\シータ^ {（T）}）}ログ\; {P（X ^ I | Z ^ i = K \シータ）P（Z ^ i = K | \シータ）} \\＆ = \ sum_ {i = 1} ^ N \ sum_ {k = 1} ^ Kの\ FRAC {N（X ^ I | \ mu_k ^ {（T）}、\ Sigma_k ^ {（T）}）p_k ^ {（ T）}} {\ sum_ {J = 1} ^ KN（X ^ I | \ mu_j ^ {（T）}、\ Sigma_j ^ {（T）}）} logN個（X ^ I | \ mu_k、\ Sigma_k） \; p_k \端{整列} \]

最尤推定得る方法\（P_K \）を \
[\のArgの\ MAX_ {P} \ sum_ 1} ^ {N-I = \ sum_ 1} ^ {K =ログK \; P_K \; {。。 P（Z ^ i = K | X ^ I、\シータ^ {（T）}）} \\\ sum_ {k = 1} ^ K p_k = 1 \]

\ [L（\ラムダ、p_k）= \ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {P（Z ^ i = K | X ^ I、\シータ^ {（T）}） }ログ\; p_k + \ラムダ（1- \ sum_ {k = 1} ^ Kp_k）\\ \]

\ [\開始{整列}＆\のFRAC {\部分L} {\部分p_k} = \ sum_ {i = 1} ^ n個の\ FRAC {P（Z ^ i = K | X ^ I、\シータ^ {（ T）}）} {p_k} - \ラムダ= 0 \\＆\のsum_ {i = 1} ^ N {P（Z ^ i = K | X ^ I、\シータ^ {（T）}）} - \ラムダ\; p_k = 0 \\＆\ sum_ {i = 1} ^ n個の\ sum_ {k = 1} ^ K {P（Z ^ i = K | X ^ I、\シータ^ {（T）}）} N = \\＆\ sum_ {k = 1} ^ K \ラムダp_k = \ラムダ\; \; - > \ラムダ= N \\＆p_k = \ FRAC {1} {N} \ sum_ {i = 1} ^ N {P（Z ^ i = K | X ^ I、\シータ^ {（T）}）} \端{整列} \]

その他、後でサプリメント