参照URL:
https://jakevdp.github.io/PythonDataScienceHandbook/05.09-principal-component-analysis.html
主成分分析(主成分分析、PCA)、1つの教師なしアルゴリズムは、PCAは、次元削減データの可視化のための非常に基本的なアルゴリズム、ノイズフィルタリング、特徴抽出及び工学特性のフィールドです。
図1に示すように、主成分分析の概要
主成分分析は、高速で柔軟なデータ教師なし次元圧縮法です。
スピンドルを示すこれらのベクトルデータ、矢印の長さ、すなわち、それはスピンドルの投影データの分散の大きさの尺度であり、各軸における入力データの「重要度」を表します。「主成分」の各データポイントは、スピンドルデータに投影されます。
これらの生データの主成分が描かれ、得られた「メインデータ変換」結果を図に示します。
座標軸データがスピンドルアフィン変換に変換されるから、この変換は、アフィン変換は、変換(翻訳)、回転(自転)及び均一スケーリング(均一なスケーリング)3つのステップを含みます。
PCAの次元削減と1、
PCAは、次元削減手段である以下の寸法を取得した投影データのデータの最大分散を保持する最小主コンポーネントの複数を除去します。
明るい色の生データ点、暗点が投影のバージョンです。
PCA次元削減の意味:主軸に沿って少なくとも重要な情報のみがデータコンポーネントは、最高の分散を含んで残して、削除された、当事者は差の小さな部分は、基本的なデータの除去として見ることができるということです次元削減「情報」量の損失の後。
カット、それでも一般的に保持されたデータとの間の全体的な関係であることをデータの寸法の50%が、:最も重要な関係を反映するのに十分な方法で、キューブデータの後にこのドロップ。
2、データ可視化のために使用してPCA:手書き数字
次元データにおいて有用なドロップそれは明らかではないかもしれない場合にのみ二次元が、高データ・寸法は、その値が反映される場合。
64は全次元データ点群、及びこれらの点又は投影方向に沿って、各データ点の最大分散です。
成分を意味する3、
基本の組み合わせの観点から問題を理解するためにベクトル。
図4に示すように、選択したコンポーネントの数
実際の使用では、PCAプロセスが正しくデータ構成要素を記述するために使用される数は、必要なコンポーネントの数を決定する構成要素の数の関数として考えることができ、累積分散寄与率の非常に重要な部分である推定します。
図2に示すように、ノイズフィルタとしてPCAを使用して
PCA方法をフィルタリングするノイズデータとしても使用することができる - ノイズ成分に比べて、ノイズの分散のいずれかの成分の分散よりもはるかに大きい、比較的影響を受けなければならないので、再構成の最大サブセットのみ主成分場合データは、その後、信号は、選択的ノイズのために予約され、廃棄されるべきです。