主成分分析 主成分分析 [学習ノート]

主成分分析 主成分分析のメモ

ここに画像の説明を挿入

PCAとは何ですか?

2次元情報を保存する場合、次元削減の観点から、(保存する情報量を減らすため)1次元情報のみを保存することが予想されます。

ここに画像の説明を挿入

PCA は、1 次元の情報を保存するための新しい座標系を見つけることです。この座標系の原点はデータの中心にあり、座標系の方向はデータ分布の方向に向かうため、次元が削減されます。

元のデータは新しい座標系の X 軸上に分布し、Y 軸は 0 になります。

ここに画像の説明を挿入

青い点は元のデータ、赤い点は青い点の軸への投影です。このように、角度によっては二次元の情報を格納するのに一次元の情報しか格納できなくなります(情報の損失はありますが、今回の目的は次元削減情報の場合の情報の損失を最小限に抑えることです)

画像

PCA の目的: データの 1 次元を維持しながら情報の損失を最小限に抑える座標系を見つけること

ここに画像の説明を挿入

上の図では座標点が比較的分散して投影されており表示しやすいためよく表示されています。

投影後にデータが赤い点に集中していることが判明した場合は、情報の重なりが混乱しており、新しい座標系ではデータを十分に区別できないため、保存された情報があまりないことを意味します。

では、適切な座標系とは何でしょうか?

ここに画像の説明を挿入

具体的な手順:

ここに画像の説明を挿入

座標系を直接見つけるための分散化が存在しない場合、これらのデータを適合させる方向を見つけることは役に立ちません。

データの線形変換

ストレッチ操作:

ここに画像の説明を挿入

たとえば、ここで、D はデータ セットで、S は (データ ストレッチを実現するための) ストレッチされた行列を表します。

S に D を乗算した後、D 上のすべてのデータ ポイントが引き伸ばされます。

回転操作:

画像

R は回転行列で、R に D を乗算した後、D をある角度だけ回転させます。

ホワイトデータの処理:

白色データ: x、y は標準正規分布 (平均は 0、分散は 1) に従い、x、y は相関しません。
ここに画像の説明を挿入
ここに画像の説明を挿入

ストレッチと回転の効果は何ですか?

ストレッチ: 最大の分散を持つ方向です

回転: 最大の分散を持つ方向の角度を決定します。

回転して角度を見つけ、ストレッチして最大値を見つけます

画像

D' は逆行列を乗算し、元の行列 D に変換します。
ここに画像の説明を挿入

Rを見つけるにはどうすればよいですか?

共分散の固有ベクトルは R です

X、Yは互いに独立ではなく、一定の正の相関があり、共分散の導入

共分散とは何ですか?

X が増加すると、Y も増加し、データの分布は次の図に示されます。共分散が 0 より大きい

(それ自体とそれ自体の共分散が分散です)
ここに画像の説明を挿入

共分散行列とは何ですか?

共分散行列: 対角線上は各軸自体の分散です。

x、y に相関がない場合、cov(x, y) は 0 になります。

次の図は、

左の図はx、yは関係ありません

中央の図は、x、y の正の相関 (共分散 > 0) です。

右の図は、x、y の負の相関 (共分散 < ​​0)
ここに画像の説明を挿入

ここに画像の説明を挿入

なぜn-1なのか?(統計の不偏性が保証されているため、保守的な推定値は真の値よりも大きくなります)

白いデータで伸縮と回転を追加すると、D' が得られます。

公開導出の開始: (D' は一般正規分布に準拠しており、D と同じ特性を持つように標準化できます)
ここに画像の説明を挿入

固有ベクトルを解く

λ: 固有値

v : 固有ベクトル

固有値 1 と固有値 2 は L 行列を形成します

固有ベクトル 1 と固有ベクトル 2 は R 行列を形成します
ここに画像の説明を挿入

ここに画像の説明を挿入

ここに画像の説明を挿入

共分散の固有値:

ここに画像の説明を挿入

要約:

PCA を解く方法:

ここに画像の説明を挿入

3D から 2D: 3D から 2D は、2D 平面を見つけて投影することです (データ間の差異を最大化します)。

ここに画像の説明を挿入

3D を 2D に変換するには、2D 平面を見つけてそれを投影します (データ間の差異を最大化するため)。

PCA と信頼楕円の間にはどのような関係がありますか?

信頼楕円: 信頼楕円は基本的に信頼領域を記述する方法です。その長軸と短軸は信頼領域のパラメーターであり、信頼楕円の長軸と短半軸は 2 次元の標準偏差を表します。位置座標成分(経度σλ、緯度σφなど)。

白いデータから円が描画され (円の内側にデータの 0.95 だけが含まれます)、引き伸ばして回転して円を形成し、データ ポイントの 0.95 が楕円内にあります。これが 95% 信頼楕円です。

テーブルを参照して、s = 4.605 -> 90% 信頼楕円を取得します。

ここに画像の説明を挿入

PCA の欠点:

外れ値は PCA の結果に大きな影響を与えます
ここに画像の説明を挿入
ここに画像の説明を挿入

コースリンク

[最も直感的に教えます: 主成分分析 PCA とは] https://www.bilibili.com/video/BV1E5411E71z?share_source=copy_web&vd_source=e6d8f0881a34c7aaf5e3fa344cc9a51a
先生のインチキは上手で、分かりやすくて、大好きです!3回連続で与えることを忘れないでください。

おすすめ

転載: blog.csdn.net/wahahaha116/article/details/127295217