「李航空」統計的学習方法は、チュートリアルのシリーズ「研究ノート」私は本のフォーカスアルゴリズムにおける原則の学習過程と知識の概要を理解し、主にノートのシリーズを含む、基礎としてのLiハング先生「統計的学習」にします。
限られた容量に、サポートの欠如は、私をたくさん修正してください、あなたはどんなアイデアは歓迎休暇コメントであります!
私の家族より多くの研究ノートについて、「にご関心を歓迎武漢AIアルゴリズムの研究」公開番号を!
この記事は、「3つの部分に分かれている[ナイーブベイズ法について理解]、」「[ナイーブベイズアルゴリズム論]」、「テキスト分類上の[アプリケーション]約10分の合計読み取り時間を拡大します」。
ガウス混合モデルの[概要]
図1は、ガウス混合モデルはGMMを使用して、単純なガウスモデルの拡張であり、依然として確率モデルであり、データの分布を特徴づけるために、ガウス分布の複数の組み合わせをサンプルクラス(クラスタA)を表すために、各ガウスモデルをいくつかのガウスモデルの投影、それぞれ各クラス確率上にそれぞれデータ。
図2に示すように、右の重み係数のすべてのガウス成分はゼロより大きく、1です。
図3に示すように、解決すべきガウス混合モデルパラメータθは、各成分のガウス分布含む平均値との分散各重量のコンポーネントを、
一般的に通過する初期化GMM、4、「混合ガウス分布の数成分が」、「共分散行列特性(ガウス分布の形状合意分布)」、「ランのEM反復回数」。
5、GMMレーン、BIC(ベイズ情報量基準)が判定方法スコアに有効な基準です。
。6、及び一部だけ確率密度関数を学習GMM、GMMのようなK-手段、各点の確率は、クラスごとに与えられ、それは付加GMMのに使用することができるクラスタリングは、として使用することができる密度推定。
7、カテゴリGMM確率導出される値、多くの場合、より強い適用性(確率値の連続性)、得られた単純な分類結果より解説できます。
8、EMの収束とアルゴリズムが、グローバル最大値を見つけることが保証されませんが、極大値を見つけることが可能です。解決策は、異なる初期化パラメータ数回繰り返し、その最善を取った結果です。
【GMMの数学的原理]
ここで参照ハングリー「統計的学習法」PDFブックの詳細の一部は、公共号「返信することができ、統計的学習方法を取得するために」。
1、数学の基本的な意味
サンプル平均と分散:1次元の特徴のサンプルデータを、標本平均と標準偏差の計算が簡単であり、試料の反応は平均中間点サンプルセットを、標準偏差および分散が記載されているサンプル点の分散度。
共分散と共分散行列:説明は、2つの間の共分散統計記述してもよい相関を、2つの変数が正に相関する、共分散が0より大きい場合、;同じことは、単にに基づいて、2次元共定義された変数で得ることができますケースが必要とする、多次元である場合、分散は、しかし様々な変数間の関係を表現するために共分散行列を、各変数の分散共分散行列の対角です。
共分散行列は、また即ち、各次元に0の平均の大きさの各寸法の平均を減算する、サンプルマトリックスの中心を聞かせて、計算してもよいし、新しい試料は、そのターンに直接乗算をマトリックスに位置は、(N-1)までで割ます。
% Matlab源码:中心化样本矩阵,使各维度均值为0
X = MySample - repmat(mean(MySample),10,1);
C = (X'*X)./(size(X,1)-1);
EMアルゴリズムのステップを使用して2、GMM
EMガウス混合モデルパラメータによって、反復更新方法、我々はサンプルデータがあると し、 ガウス混合モデルの子モデルは、あなたは、ガウス混合モデルの最適なパラメータを計算します。
すべての初期化パラメータの2.1ファースト
スキーム1:共分散行列が単位行列、各モデルの事前確率の比であり、平均乱数に。
スキーム2:様々な平均の使用などのクラスタリングのためにk平均(K-手段)クラスタリングアルゴリズムのサンプル、およびコンピューティング総サンプルのすべての種類の割合のサンプルを採取します。
2.2 Eステップ:現在のパラメータに応じて、各データについて計算 サブモデルから 尤度
2.3 Mステップ:イテレーションの新ラウンドのモデルパラメータ
繰り返しは、収束するまでEおよびMステップの2.4計算ステップ( 、 最初の繰り返しが非常に小さいパラメータの変化を表した後に、小さい正の数です)
(「統計的学習」より明瞭と比較して)3、GMM純粋数学的導出
ステップ3.1 E、Q関数を決定します
観察隠れ変数を定義して、変数yの定義は、zは、完全なデータの尤度関数の数です。
計算の便宜のために、式の数:
Q機能があります:
機能上のQ、事後確率は次のようになります。
3.2 Mステップ
ステップMは、「統計的学習方法」を参照し、シークゼロに偏導関数を衝突させるために必要なパラメータを算出することができます。
[参考文献]
[1]は、ガウス混合モデル(理論+のOpenCVの実装)
[2] 共分散行列に