SL-主成分分析(PCA)

SL-主成分分析(PCA)

この記事では、劉Jianpingのためであるこの記事の、ブックマークノートは、「深い学習」を参照してください。

主成分分析(主成分分析、PCA)は、次元削減の最も一般的な手段はなく、典型的な教師なし学習ツールです。アイデアは、元のデータを保持することが可能な限り、これらのデータ及び情報を表現するための小さなベクターで適切なサブスペースを見つけるために、元の空間上のデータポイントのためのものです。

オリジナルデザイン行列と仮定\(X- \でR&LT ^ {M \タイムズN-} \) これらm個のデータの平均値が0であり、我々は、のようにして得られたベクトルの長さに期待\(L \) 縮小/復号化マトリックスの定義は、(\ D \ {^ N-R&LT \ Lにおいて}タイムズ\) 我々は言うベクトルの最終減速アウトなど)\ \(\帽子X、DWのを=\(Wは\)圧縮後米国を表すベクトルです。

計算の前に、最初の外観はベクトルを表し(\ W)が\必要とするから来る\(D \)をより深く理解して(\ Xハット= \ SUM ^ Lのw_id_i \)\、すなわち、行列Dの各列は、我々ベクトル空間は、一意の結果として、(元の空間で表される)基を表すことを、我々は互いに直交するこれらの基底ベクトルと1の長さを必要とします。それ\(D = D'I \) だから、どのように表現ベクトルを取得する (\ w)は\それ?Xが明確各基底ベクトルに投影され、\(= W_i d_i'x \)すなわち\(W = D'は\ X)

導出1:最小に基づいて、投写距離

もちろん、私たちはあること、可能な限り小さく、としてその「情報の損失」を願っています\(\帽子のx \)(X \)\、我々は最小限にしたいと言うことです測定するには、2つの規範との間のできるだけ近くに、、、
\ [ \和^ M || \帽子X_I
-x_i || ^ 2_2 \] 仕上げ式
\ [\和^ M || \ハットX_I-X_I || ^ 2_2 = \和^ M || DD'x_i-X_I | | ^ 2_2 \\ = \合計^メートル|| x_i'D'D-X_I '|| ^ 2_2 = || || XD'DX _F \\ = Trの(D'DX'-X')(XD'DX )= - Trの(X'XDD「)
+ Trと(X'X)\] したがって
\ [D = \のarg \ min_D
-Tr(D'X'XD)ST D'D = I \] に、これが典型的です最適化問題(ラグランジュ乗数)は、具体的には、最適のDこと\(X'X \)最大\(L \)固有値は対応する固有ベクトル行列が構成される。

派生:最大の分散に基づいて投影

上記の推論方法は、以下にさらにアイデア最大に基づいて投影由来の分散が与えられます。

まず第一に、私たちの目的は、投影点が可能分散液として、我々は説明するサンプル点の悪共分散行列の分散のこの程度を使用することができますことを願ってすることですが、この最適化は困難にもたらします。したがって、我々は、各サンプル点に"分散"を取る:つまり、\((D'xは-D ' \バーX)'(D'xは-D「\バーX)= x'DD'x \) ため我々は持っている\(X \)の中心を。したがって、我々は最大限にしたい
\ [\ ^合計メートルTrの(
D'xx'D)= Trと(D'X'XD)ST D'D = Iを\] 目的関数の上に見ることができることは同じです。

PCAアルゴリズムの流れ

  • 最初は、サンプル点の中心に対して行います
  • 計算サンプル共分散行列\(X'X \)
  • 最大のグループ方固有値分解、\(L \)固有ベクトル行列に対応する固有値\(D \)
  • 各サンプルについて計算\(w_i = D'X_I \)

ここで、我々は、事前に定義された大きさの程度を低減する必要がある(L \)\すなわち、それは選択された必要、許容範囲内にデータ損失率制御を確実にするために、特徴量の分布に基づいていてもよい、\(L \)を満足する
\ [{\和^ L \ lambda_i \オーバー\和^ N \ lambda_i} \ GE tの\]

カーネル主成分分析入門KPCA

我々が目的関数の導出に戻る
\ [D = \のarg \ min_D
-Tr(D'X'XD)ST D'D = I \] ラグランジュ乗数法及び誘導体、仕上げを使用してある
\ [X'XD = \和^ M
x_ix_i'D = \ラムダD \] あなたは、サンプルDは、共分散行列の固有ベクトルで見るとできるように(\ラムダ\)\固有ベクトルの対角行列であります。

時には、我々はそう言うことですSVMのカーネル関数のアイデアを借りて検討し、上記の式となり、超平面上の優れたデータ収集のための投影を行うことが非常に困難である
[\ ^合計メートル\ファイ\ (X_I) \ PHI(X_I)「D =
\ラムダD \] 我々は問題を持っている、である(X'X \)\より高い次元の空間共分散行列分解に固有値分解。もちろん、これは、計算の複雑さをもたらすでしょう。

おすすめ

転載: www.cnblogs.com/easonshi/p/12510608.html