PCA:主成分分析

PCAの概念:

主なアイデアは、k次元の直交新機能である寸法Kにn次元の特徴をマッピングすることであり、k次元の特徴量をK次元に基づいて、再度、元のデータで構成された主成分と呼ばれます。これは、新しいデータを選択するために、互いに直交する軸のセットを見つけるために、元の空間からであり、それ自体軸座標素晴らしい関係を有しています。最大分散の元の方向から前記第一軸データ、2番目の選択肢は、最大分散その第一平面に軸直交座標新しい座標軸であり、第3の軸は、最初の2つの軸であります最大の分散に直交する平面、など。ように、nは、このような軸することができます。このようにして得られた新たな軸が、我々は、前方の分散のほとんどは分散の後軸がほぼゼロを含ま、k個の軸に含まれていることを見出しました。したがって、我々は分散のほとんどが含まれているk個の軸の前面だけを残して、軸の残りの部分を無視することができます。実際には、これは、ほとんどのフィーチャ寸法0としてのみ次元機能が分散、分散のほとんどを含み、無視含ま保持データ特性に寸法低減処理を実現することと等価です。

PCAアルゴリズム:

利点:複数の最も重要な機能を識別、データの複雑さを軽減します

短所:必ずしも、する必要はありません有用な情報の損失の可能性

該当するデータ型:数値データ

 

データセットのダウンロードリンク:http://archive.ics.uci.edu/ml/machine-learning-databases/

アプリケーションデータはPCAに設定します。http://archive.ics.uci.edu/ml/machine-learning-databases/セコム/

(1)データセット番号は集中化されたデータの行):(特徴の数SECOMデータ、非ナンNaN値の平均値として算出される開き

(2)固有値を除去します

(3)共分散行列の計算、行列の固有値解析。

擬似コードのn主成分にデータを変換します。

(1)平均値の除去

(2)共分散行列の計算

共分散行列の固有値と固有ベクトルは、(3)計算

(4)特徴値を降順にソート

(5)nはトップ固有ベクトルを保持します

(6)建設のn個の固有ベクトルの新しい空間にデータを変換します

注意:

参考:https://zhuanlan.zhihu.com/p/37777074

サンプルの平均:

 

 

 標本分散:

 

サンプルxとサンプルyの共分散:

 

 

 サンプル平均、分散との差の共分散:

サンプルは、平均:異なるサンプルが同じ寸法に応じて平均しました

分散は、得られたn個のサンプルについて算出同じ次元データであります

共分散:(ウェル多次元)とサンプル試料との関係を示す少なくとも二次元データ、正の共分散は:サンプルxとサンプルyは正の相関、負、負の関係であり、xとyを示し、0に等しいです。独立。

例:三次元データ(X、Y、Z)の共分散のために:

 

 

 

おすすめ

転載: www.cnblogs.com/shuangcao/p/11670765.html