ディレクトリ
- PCAの思想
- アルゴリズムの導出
- PCAアルゴリズムのフロー
- 核主成分分析入門KPCA
- PCAアルゴリズムの概要
主成分分析(PCA)は、最も重要な次元削減方法の1つです。データ圧縮の分野で広く使用され、冗長性とデータノイズの除去を排除します。
1. PCA のアイデア
PCAは、その名前が示すように、データの最も重要な側面を見つけ出し、元のデータをデータの最も重要な側面に置き換えることです。つまり、できるだけ多くの情報を保持するようにしてください。
たとえば、データセットがn次元の場合、m個のデータ(x(1)、x(2)、...、x(m))があります。これらのmデータの次元をnからn '次元に減らし、これらのm n'次元データセットが元のデータセットをできるだけ表すことを願っています。n次元からn次元へのデータの損失が確実に発生することはわかっていますが、損失をできるだけ小さくしたいと考えています。では、このn次元のデータを可能な限り元のデータに表す方法を教えてください。
最初に最も単純なケース、つまり、n = 2、n '= 1、つまり、2次元から1次元にデータを削減する場合を見てみましょう。データを以下に示します。これらの2つの次元のデータを表すことができる特定の次元の方向を見つけたいと考えています。図には2つのベクトル方向、u1とu2がリストされているので、どのベクトルが元のデータセットをよりよく表すことができますか?また、u1がu2よりも優れていることも直感的に理解できます。
なぜu1はu2よりも優れているのですか?2つの説明が考えられます。最初の説明は、サンプルポイントとこのラインの間の距離が十分に近いということです。2番目の説明は、このライン上のサンプルポイントの投影を可能な限り分離できる、つまり、分散が可能な限り大きいということです。
n 'を1次元から任意の次元に一般化する場合、次元を減らすための基準は、サンプルポイントとこの超平面の間の距離が十分に近いか、またはこの超平面上のサンプルポイントの投影をできるだけ離すことができます。 。
上記の2つの標準に基づいて、PCAの2つの同等の派生物を取得できます。
2、アルゴリズムの導出
同じ表現を導き出す2つのアイデア。1つ目は、投影後の損失を最小化することです(投影による損失が最小です)。2つ目は、投影後の分散を最大化することです。
2.1 PCAの導出:最小投影距離に基づく
最初に、最初の説明の導出、つまり、サンプルポイントとこの超平面の間の距離が十分に近いことを確認します。
この式を整理すると、次のことがわかります。
このように、WはXXのn '固有ベクトルで構成される行列であり、λはXXのいくつかの固有値で構成される行列であり、固有値は主対角線上にあり、残りの位置は0であることがより明確にわかります。データセットをn次元からn '次元に削減する場合、最大のn'個の特徴値に対応する特徴ベクトルを見つける必要があります。これらのn '個の特徴ベクトルで構成される行列Wは、必要な行列です。元のデータセットの場合、z(i)= WTx(i)を使用して、元のデータセットを投影距離が最小のn '次元のデータセットに減らす必要があります。
注:スペクトルクラスタリングの最適化プロセスは、PCAと非常によく似ています。ただし、スペクトルクラスタリングは、トップk最小固有値に対応する固有ベクトルを見つけることであり、PCAは、トップk最大固有値を見つけることです。特徴ベクトル。
2.2 最大射影分散に基づく
これは基本的に 2.1 と同じであることが簡単にわかります。
3. PCA アルゴリズムプロセス
4. KPCAの概要
上記のPCA アルゴリズムでは、データを投影できる線形超平面があると想定しています。ただし、データが線形ではなく、PCA 次元削減を直接実行できない場合があります。ここでは、同一のサポートベクターマシンとカーネルのアイデアを使用することが必要である:と呼ばれるカーネル主成分分析(カーネル化PCA、以下、KPCA 架空のデータを高次元空間によって決定される。N- データ次元空間マッピングによりφ 生成されます。以下のためのn 特徴変形次元空間:
5、PCA アルゴリズムの要約
以下は、 PCA アルゴリズムの要約です。教師なし学習の次元削減方法として、データの圧縮とノイズ除去には固有値分解のみが必要です。したがって、実際のシナリオで広く使用されています。克服するために PCAにいくつかの欠点を、たくさんありました PCAは、このような非線形次元削減部VI解決するとして、バリアント KPCAを、同様の増分メモリの制限に対処するために PCA 方法インクリメンタルPCAを、同様のまばらなデータ次元削減解決 PCA 方法をスパースPCA など
利点:
1 )分散によって測定する必要があるのは情報の量のみであり、データセットの外部の要因の影響を受けません。
2 )主成分の直交性により、元のデータ成分間の相互影響因子を排除できます。
3 )計算方法は簡単で、主な操作は固有値分解であり、実装が容易です。
短所:
1 )主成分の各特徴次元の意味には、あいまいさがある程度あります。これは、元のサンプルの特徴ほど解釈できません。
2 )ディメンションを破棄すると後続のデータ処理に影響する可能性があるため、分散が小さい非主成分にはサンプルの違いに関する重要な情報も含まれている場合があります。
上記は主に以下からです: < https://www.cnblogs.com/pinard/p/6239403.html >
付録1:手書きの練習