機械学習ノート 09---PCA 主成分分析

    機械学習において、高次元データの次元削減の主な目的は、元の空間よりも学習のパフォーマンスが向上する適切な低次元空間を見つけることです。

    主成分分析 (主成分分析、PCA と呼ばれる) は、最も一般的に使用される次元削減方法です。PCA を導入する前に、次のような質問を検討したいと思うかもしれません。直交属性空間内のサンプル点について、超平面 (直線の高次元の延長) を使用してすべてのサンプルを適切に表現するにはどうすればよいでしょうか。

    このような超平面が存在する場合、おそらく次のような特性があることは容易に想像できます。

    最近接再構成: サンプル点と超平面の間の距離が十分に近い

    最大の分離性: この超平面上のサンプル点の投影を可能な限り分離できます。

    興味深いことに、最近接再構成と最大分離可能性に基づいて、主成分分析の 2 つの等価な導出がそれぞれ得られます。

1> 最近の再構築的導出:

    データ サンプルが中心にある、つまり Σxi = 0 であると仮定し、射影変換後に得られた新しい座標系が {w1, w2, ..., wd} であると仮定します (wi は正規直交基底ベクトルです)。 |wi|| ² = 1、wi(T)*wj = 0(i ≠ j)。新しい座標系の一部の座標が破棄される場合、つまり次元が d' < d に削減される場合、低次元座標系におけるサンプル点 xi の投影は zi = (zi1; zi2;... ; zid')、ここで zij= 低次元座標系の j 次元における wj(T)*xi の座標。xi を zi に基づいて再構成すると、xi' = Σzijwj が得られます。

    トレーニング セット全体を考慮すると、元のサンプル ポイント xi と投影に基づいて再構成されたサンプル ポイント xi' の間の距離は次のようになります。

 ここで、W = (w1,w2,...,wd)。最近の再構成によれば、wj が正規直交基底であり、Σxixi(T) が共分散行列であることを考慮すると、上記の式は最小化される必要があります。

 これが主成分分析の最適化目標です。

2> 最大分離可能性の導出:

    最大分離可能性から出発して、主成分分析の別の解釈を得ることができます。新しい空間の超平面上のサンプル点 xi の射影式 W(T)xi がわかっているため、すべてのサンプル点の射影を可能な限り分離できれば、射影されたサンプル点の分散は最大化されるはずです。下の図に示すように:(図は少し雑です...理解できますが、表示されていません)

     投影後のサンプル点の共分散行列は ΣW(T)xixi(T)W であるため、最適化目標は次のように記述できます。

 明らかに、最近接再構成と最大分離可能性から導出された 2 つの公式は等価です。

    上記の式にラグランジュ乗数法を使用すると、次のように求めることができます。

 したがって、共分散行列 XX(T) で固有値分解を実行し、得られた固有値を並べ替えるだけで済みます: λ1 ≥ λ 2 ≥... ≥ λd、その後、最初の d' 固有値に対応する固有ベクトルを取得して次を形成します。 W*= (w1,w2,...,wd')。これが主成分分析の解です。PCA アルゴリズムの説明は次のとおりです。

输入:样本集D = {x1,x2,...,};
      低维空间维数d'

过程:
1.对所有样本进行中心化:xi <- xi-(Σxi)/m
2.计算样本的协方差矩阵XX(T)
3.对协方差矩阵XX(T)做特征值分解
4.取最大的d'个特征值所对应的特征向量w1,w2,...,wd'

输出:投影矩阵W* = (w1,w2,...,wd')

    次元削減後の低次元空間の次元 d' は、通常、ユーザーによって事前に指定されるか、異なる次元空間で k 最近傍分類器 (または他の低コスト学習器) を相互検証することによって選択されます。 d' 値 より良い d' 値。PCA の場合、再構成の観点から再構成しきい値 (t = 95% など) を設定し、次の式が成り立つ最小の d' 値を選択することもできます。

     PCA は、単純なベクトル減算と行列ベクトル乗算を通じて新しいサンプルを低次元空間に投影するために、W* とサンプルの平均ベクトルを保持するだけで済みます。明らかに、最小の dd' 固有値に対応する固有ベクトルが破棄され、次元削減の結果であるため、低次元空間は元の高次元空間とは異なる必要があります。しかし、多くの場合、情報のこの部分を破棄する必要があります。一方で、情報のこの部分を破棄した後、サンプルのサンプリング密度を高めることができ、これは意志の重要な動機となりますが、他方では、データは最小のノイズの影響を受けます。固有値に対応する固有ベクトルはノイズに関連していることが多く、それらを破棄することである程度のノイズ除去効果を達成できます。

周志華氏の「機械学習」を参照

おすすめ

転載: blog.csdn.net/m0_64007201/article/details/127599171