正規化と標準化とは何ですか

  正規化(スケール変更、最大-最小の正規化、翻訳されたいくつかの正規化された差から)の範囲にスケーリングされたデータを指し、[0,1]、下記式:

X」= [X - 分(X)] / [MAX(X) - 分(X)]

  標準(基準点として翻訳される標準、Zスコア正規化)データの分布を変更することなく、手段、0の平均およびデータセット1の標準偏差をデータ処理。次のように式は次のとおりです。

X」= [X - 平均(X)] /δ

  標準式はよく知られている、それは式の正規分布N(μ、δ)〜N(0、1)ではないのですか?

X「=(X - M)/ S

  式は、標準正規分布に限定されるものではなく、任意の分布は、データ分布によって正規化することが可能であるが、データ系列のゼロ平均および分散になります。

  注意:

  1.集中、部分的標準化:X「= X - 平均(X)、そのようなデータ処理センターへのPCAの後としては、第一のメインコンポーネントにデータのより良い説明を得るために必要とされます。

  2.正規化は、正規に変換されます。いくつかのブログや記事執筆正則(正則)は、十分な笑顔。

 

違いと用途

  正規化と標準化がデータ配信一定の場合に維持されているが、(なぜデータは、本質的に両方だけ直線的な変化であるため?不変分布データを残すことができる)データを処理するが、上記の式からあるいは明確には、データ処理をスケーリングするための最初の選択肢であり、正規化処理のみ関連する最小値と最大値、標準化とデータの分布関連している(平均、分散)、したがってより多くの標準の統計的有意性で、見ることができます。しかし、いくつかの特別な規模データへの必要性などの場面、[0,1](標準化は、その範囲を保証するものではありません)、だけでなく、いくつかのシナリオでデータスパースは、あなたが値0を維持したい、他の大きなを正規化するために使用されますパートタイムは、標準化が好ましいです。

 

なぜ我々は標準化が必要なのでしょうか?

  事情により寸法拘束の違いに大きなデータの不整合ので、データをしてみましょう。なぜ次元の問題を引き起こす矛盾?[0、1]に分散特徴Aの値は、Bの分布のさらなる特徴は、[100 10,000]である場合、場合チューニングパラメータ、特性Bに起因するパラメータ変化には明らかで勾配降下を行います優れた機能よりも変化するが、センスディスプレイで真ではないかもしれません。

  勾配降下勾配がデータを解決するときに、データが同じ寸法の下であればさらに、このような円、球、などの低次元空間などのデータの定期的な、等間隔のクラスタ(と同様に形成されます勾配の方向が重大な逸脱できなくなりますので)、この時間は、勾配降下は、方向の変更の最速(最高速度)です。

  しかし、機能の差が比較的大きい場合には、データの順序が、それは(楕円、フットボール形状プロファイルデータに類似している低次元空間における)データの不均衡にクラスターを形成し、そのようなデータの分布の勾配を求める手順は、最初の行でありますセンター自体にエッジからの直線距離が続く中心にエッジから曲がりくねった、延長距離が長い、均一な手順に従って、(ステップ)が等しい、可能勾配反復することに多くの時間を必要とします実現(部分)の最適化。

  そのため、データの標準化の後に解決のプロセスを加速します。

  あなたはすべてではなく、標準化すべき処理の必要性、いくつかの学習の、勾配降下によるデータ処理時間を標準化する必要性を見ることができ、および最適化プロセスは、データのために必要とされていない、そのような決定木(ランダムフォレスト)との距離、とは無関係です標準処理。

 

付録:

  PCAは、集中する必要があります

  1.ので、高次元の低次元マップには、分散を最大化しようとするだろうPCA、標準化されていない場合は、それが多数のアルゴリズムが、この中に、分散、分散のギャングを追求し、小さな寸法を無視する傾向があるだろうビジネスロジック上の合理的ではないかもしれない、PCAが特徴的な寸法を削除するために正規化される前に、次元削減は、一般的に行われています。

  2. PCAはまた、勾配降下が収束を加速する、標準化を通じて、大量のデータクラスの順に低減することができ、勾配降下法を計算します。

  3.センタリング後、主成分の方向は、プロセスを記述することができるであろう。必ずしも、集中化されていない場合。集中化した後に参照すると、説明が何であるかについては、ベクトルの方向は、点座標の原点の方向です。例えば、算出された主成分[1]、[2]、それはデータセンターの結果である場合、我々は点[1,2]から[0,0]主成分の方向であると言うことができます。

 

  图片为什么要中心化?

  减少计算量

 

  经验风险,结构风险

  经验风险,可以理解为损失函数的均值:

  EXP_RISK = (1/n) * Σ( f(xi) - yi )²

  所谓的"经验"就是指已经被标注的训练数据,风险就是指模型的预测值和真实值的差别,这里的经验风险就是模型的训练数据的预测值和真实值的差别的平方项的均值。我们机器学习调优目标就是经验风险最小

  期望风险,是指所有的样本(无论是已知的还是未知的)差别平方项的均值,毫无以为,这是不可能求出来的,因为你无法获得所有的样本。期望在统计学的意义不再是部分数据集,而是全部的样本集的数字特征。

  因为模型是经过部分样本集训练出来的,所以调优追求经验风险最小化的结果就是大概率会有过拟合的情况,这个时候,就需要为风险结构引入正则项,使之成为结构风险,顾名思义风险是由多余一个部分组成,这里包括经验风险+正则化两部分。注意结构风险其实是经验风险和期望风险一个折中经验风险因为数据不充分,可能会导致过拟合其实是需要期望风险来减少过拟合,但是现实无法获取期望风险,于是通过结构风险来限制经验风险,使之能够接近经验风险。

 

参考:

https://blog.csdn.net/weixin_36604953/article/details/102652160

https://www.zhihu.com/question/20467170

https://www.cnblogs.com/wangqiang9/p/9285594.html

http://sofasofa.io/forum_main_post.php?postid=1000375 PCA为什么要标准化

PCA为什么要去均值

https://blog.csdn.net/fisherming/article/details/80236631

https://www.zhihu.com/question/37069477

 

https://blog.csdn.net/liyajuan521/article/details/44565269 经验风险,期望风险以及结构风险的介绍

https://www.jianshu.com/p/903e35e1c95a

 

おすすめ

転載: www.cnblogs.com/xiashiwendao/p/12130992.html