機械学習 - 主成分分析PCA

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/xiao_lxl/article/details/97390597


機械学習アルゴリズムの十 - 主成分分析PCA(主成分分析)

次元削減

宇宙には、時間と空間の合計です。時間は一次元である、と空間の寸法は、これまでのところ決定的な、と言います。9次元の弦理論は、M-理論によって受け入れホーキング10件の寸法であると考えられる、と述べました。彼らは、三次元の人間以外の寸法は非常に小さい空間スケールでカールすることによって知覚されることを説明しました。次元削減 - もちろん、これらは宇宙の真の意味を探る、あるいは生命の本質と思われるが、教室のテーマ今日の機械学習を引き出すためにするために読者を導くより多くの本の「三体」シリーズを、販売の話のためではありません。

機械学習と現実の世界これと同じモリの空間次元におけるデータの次元。機械学習では、データは多くの場合、モデルを訓練するための入力を形成するベクトルとして表現する必要があります。しかし、我々はすべて、高次元のベクトル処理と分析を知って、大幅にシステムリソースを消費し、次元のさえ呪います。例えばCV 100×100画素を抽出RGB画像特徴の(コンピュータビジョン)フィールドで、寸法は30,000到達します。NLP(自然言語処理)フィールドに基づいて<文書 - 単語>機能マトリックスは、また、ウェブの数百を作成しました特徴ベクトル。そのため、低次元で元の高次元ベクトルを特徴付ける次元を削減することが特に重要です。ただ、宇宙は本当にとしてM-理論が言った場合は、各天体の位置を記述するために10次元座標で構成され、考える、まったく普通の人が、構造内のスペースを想像することはできませんがあるはずです。我々は、二次元平面に投影されたこれらの惑星を置くときしかし、宇宙全体は、その上の天の川のように直感的になります。

一般的な次元削減法は、主成分分析(PCA)、線形判別分析(LDA)、等長(Isomap)、局所線形埋め込み(LLE)、ラプラシアン特徴マッピング(LE)、局所保存投影(LPPを含みます)というように。これらの方法は、線形/非線形、監督/教師なしローカル/グローバル、別々に分けるようにすることができます。PCAは最も古典的な方法として、歴史の100年が経ちましたところ、それは線形、教師なし、グローバルな次元削減アルゴリズムに属します。今日は永続的な、この世紀の古典に戻って見てみましょう。

直交の組を介して可変相関は線形非相関変数のセット、主成分と呼ばれる変換された変数のセットとして存在することができる変換する変換属する統計的主成分分析。

ここに画像を挿入説明

いくつかの実用的なアプリケーションでは、データのプレゼンテーション、データの視覚化を単純化する、主成分分析データ圧縮を含みます。これは、ドメイン知識は、主成分分析アルゴリズムを使用しての適合性を決定するために必要なことを言及する価値があります。ノイズデータ(すなわち、個々の成分の分散が大きい)大きすぎると、主成分分析アルゴリズムの使用には適していません。

PCAアルゴリズム

PCAの原則と目的関数

次元削減の目的を達成するために、PCA(主成分分析)、主成分分析、主要構成要素は、データを検索することが意図され、そして主要成分を特徴づけるこれらの元のデータを使用しています。簡単な例として、三次元空間内の一連のデータ・ポイントは、これらの点は、原点を通る平面に分布しています。我々は天然の座標x、yの3つの軸を表すZデータ、三次元を使用する必要が使用している場合、実際には唯一の二次元平面上のこれらの点において、我々は平面を回転させる場合の座標系とのデータはによって配置されるようにX、Y平面と一致し、我々は「Y」缶生二次元xで表現されたデータ、および任意の損失なしに、このようにデータの次元削減を完了し、そしてX「Y」は、2つの軸に含まれる情報それは我々が検索したい主な成分です。

しかし、高次元の空間に、我々はメインシャフトコンポーネントがどのように対応して特定することがより困難であり、これは単なる直感的に分散されたデータの形式を想像好きではない傾向にあります。願い、私たちは、この作品正確にどのように見て、最も単純な二次元のPCAデータで始まります。
ここに画像を挿入説明
上位(左)データセンターの二次元空間のセットを通過させる、我々は容易に、主成分の軸の一般的な方向を見ることができる(以下、スピンドルと称する)、即ち、緑色のラインの右軸が配置されています。シャフトは緑色の線に位置しているため、データの分布は、この方向に大きく変動データを意味し、より分散されています。信号処理の分野では、信号が大きい信号対雑音比は、データを意味品質より良い、ノイズは信号対雑音比は、信号対雑音比と呼ばれるより小さな分散を持つ、大きな分散を有していると信じています。したがって、私たちは、PCAの目標を引き出すことができ、それが投影分散を最大化することで、つまり、スピンドル上のデータは、最大分散を投影しましょう。
ここに画像を挿入説明
ここに画像を挿入説明

PCAソリューション方法

すぐに元のを見つける線形代数に精通している読者は、xの分散共分散行列の固有値の投影です。私たちは、最大の分散が共分散行列の最大固有値で見つけたい、最高の投影方向は、値に対応する特徴ベクトルの最大の特徴です。投影の直交空間サブ最適な投影方向を最適な方向に配置され、それは2番目の最大固有値に対応する固有ベクトル、及びです。これまでのところ、我々は、PCAの方法を解決されています:

ここに画像を挿入説明
ここに画像を挿入説明

PCA最小二乗誤差の理論

問題の説明

実際には、PCAは、最高の投影方向、つまり直線、直線回帰の目標一致で数学の問題は、問題を解決するためのリターン目標の観点から、PCAの定義かどうか、それに応じて、あることが観察解決?

分析

ここに画像を挿入説明

サンプル点は、この行の最大分散に投影されるように、我々はまだこれらの2次元空間のサンプル点を考慮し、最大角度分散解決は、直線です。線形を解決するためのアイデアから、それは数学の線形回帰問題を考えるのは簡単です、目標は、よりよいサンプル収集ポイントに合わせて対応する直線という線形関数を解決することです。私たちはこのような観点から、ターゲットPCAを定義する場合、問題は回帰問題に変換されます。

道に沿って、高次元の空間に、我々は実際に、d次元超平面を見つけたいように距離と超平面最小の二乗にデータポイント。一次元の場合のために、超平面が直線分解、直線上に、すなわち最適サンプル点であり、それは、図1に示すように、直線の全ての点に二乗距離の和を最小とすることです。
ここに画像を挿入説明

ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明

Wは、選択された私たちの最初のxkTxkとは何の関係もない定数です。我々だけ継続する、それぞれ、第二及び第三項の投影ベクトル表現で取得しており
ここに画像を挿入説明
、ωiTxkとωjTxkが投影長さを表すデジタルあります。いつI≠J、ωiTωj= 0、そうクロスタームのみ項目Dの式。

ここに画像を挿入説明
我々は、すべてのkの合計はのように書くことができている方程式を最小限にしたいです
ここに画像を挿入説明

我々は解決するために、ベースω1、ω2、...、ωDでWをD、とあなたは完全に同等の方法で見つけるれます。= 1 dの場合、例えば、我々は実際に問題が解決
ここに画像を挿入説明
ωとバリマックス方向を解決するための最良の直線の最適な投影と一致し、即ち、唯一の違いは、共分散行列対応する固有ベクトルの共分散行列の最大固有値でありますΣの倍数、および一定のバイアスが、これは私たちの最大の最適化に影響を与えません。

おすすめ

転載: blog.csdn.net/xiao_lxl/article/details/97390597