アンドリュー・ウ「機械学習」コースの概要(14)_次元削減

動力Q1:データ圧縮

2次元相関は、一次元に落ちたように、それは、そのような次元削減を、特色にします:

三次元の変更:

100次元のデータ削減に非常に次元データ1000。メモリの占有スペースを削減

Q2の動機II:データの可視化

データの大きさ50は、次元縮小法を用いて可視化することができないが、それは、二次元にするために減少し、その後、可視化することができます。

次元削減アルゴリズムは、私たちが見つけることが私たち自身の持っている必要があり、新たに生成された特性を意味し、寸法を減少させるための唯一の責任です。

問題のQ3の主成分分析

(1)主成分分析の説明:
問題は、n次元のk次元のデータにダウンし、目標は、投影中の総誤差を最小にするベクトルkを見つけることです。

主成分分析と線形回帰の(2)の比較。

 

両方のアルゴリズムは、最小の予測誤差であり、前者の投影誤差が最小化され、異なっていて、前者の分析なしで、後者の目的は、結果を予測することです。

線形回帰は、突起の軸に垂直な、突起は赤線に主成分分析に垂直です。下図のように:

(3)PCAは重要「ピボット」のベクトルである前方への必要の重要な部分に応じて、新たなソートを求め、後者の寸法は省略されています。

一つの利点は、(4)PCAは、手動でパラメータを設定することなく、データに完全に依存しているユーザとは無関係であり、これもあったユーザがデータの一部の事前知識を持っている場合、することができない、ための欠点は、また見ることができます便利になる、あなたは所望の効果を得ることができませんでした。

Q4の主成分分析アルゴリズム

PCAは、n次元のk次元に縮小されます。

(1)平均正規化、即ち平均分散の減少で割っ。

(2)共分散行列の計算。

(3)共分散行列の固有ベクトルを計算します。

寸法のn×nの行列のための、式Uは単にUと、nxk寸法を取得ベクトルk個のベクトルの前方に移動し、データ構造間の最小誤差の投影方向ベクトルを有するマトリックスである減らす次いで、示さ必要な新しい特徴ベクトルZ得るために、次のように計算される(I) = U- T 減らす * X (I)を

主成分Q5の数を選択します

主成分分析は、トレーニングセットの分散を平均平均二乗誤差を低減するために投影されます。

希望可以尽可能的减少二者的比值,比如希望二者的比值小于1%,选择满足这个条件的最小维度。

Q6重建的压缩表示

降维式子:

重建(即从低维回到高维):

示意图如下所示:左图是降维,右图是重建。

Q7主成分分析法的应用建议

正确使用案例:

100 x 100像素的图片,即1000维特征,采用PCA将其压缩至1000维,然后对训练集运行学习算法,在预测时,对测试集采用之前学到的Ureduce将测试集的x转换成z,再进行预测。

错误使用情况:

(1)尝试用PCA来解决过拟合,PCA是无法解决过拟合的,应该用正则化来解决。

(2)默认把PCA作为学习过程的一部分,其实应该尽量使用原始特征,只有在算法运行太慢或者占用内存太多的情况下才考虑使用主成分分析法。

おすすめ

転載: www.cnblogs.com/henuliulei/p/11286991.html