データ分析:正規化、標準化と集中化/ゼロ平均

コンセプト1
  の間でデータ(0,1)または(1,1)への小数1):正規化されました。主によって提案されたデータ処理の便宜のために、データが0のプロセス、より便利で速い1の範囲にマッピングされます。2)無次元式は無次元表現になる、または表示を容易にするために、異なるユニットの順序を比較して重み付けすることができます。正規化は、計算を単純化するための方法であるスカラーなっ次元表現への変換によって、表現の次元を持ってしようとしています。
  標準化:機械学習では、我々はそのような情報は高次元であってもよく、そのような音声及び画像の画素値として、異なるタイプのデータ、に対処する必要がある可能性があり、それぞれ特徴の後に標準化されたデータは、(平均の値が0になる原因となります各平均の特徴の値は原料の特性)、標準偏差が1になるで減算され、この方法は広く(例えば、多くの機械学習アルゴリズムで使用されている:サポートベクターマシン、ニューラルネットワーク、およびロジスティック回帰) 。
  集中:ゼロ平均、標準偏差なし
  区別正規化及び標準化:正規化された特徴値は、サンプルデータの同じ寸法に変換されるがマップされている[0,1]または[-1、 1]間隔、スケーリング則間隔が正規1つであるため、極値によって決定変数のみ。標準化は、標準正規分布に、Zスコア法によって必要とされる特性に応じてデータを処理する、の列行列であり、各サンプル点に関連する全体的なサンプル分布が標準化に影響を与えることができます。すなわち、それらは同じで、異なる寸法に起因する誤差をキャンセルすることができ、ベクトルXの線形変換の種類は、次に、圧縮比に応じて変換されています。
  標準化および集中の差:生スコアの標準化は、その後、平均、標準偏差、平均値を減算することにより、元のスコアの中心を減算することにより分割されます。したがって、一般的なプロセスは最初に、次に標準化の中心です。
  無次元:私の理解では、何らかの形で私たちはこのように計算を簡素化し、実際のプロセスユニットを取り外すことができるということです。

2なぜ、正規化/標準化?
  先に述べたように、正規化/標準化は、本質的に線形変換であり、線形変換は、変更後のデータが「失敗」をもたらさないであろう判断多くの良好な特性を有するが、これらの特性があるデータのパフォーマンスを向上させることができ前提の正常化/標準化。例えば、非常に重要な特性があります:線形変換ソートされた元のデータの値を変更しません。
(1)一部のモデルでは、解く必要
  勾配降下法を用いて最適化問題を解く1)を、正規化/標準化が収束速度モデルを強化するために、すなわち、解決速度勾配降下を促進することができます。左側に示されるように、部分的な楕円形の間に形成された非正規化/標準化された輪郭は、移動する可能性がある「と」反復成形経路(垂直長軸)、収束する反復の何倍につながります。右側の2つの正規化機能は、勾配降下を解決したときに速く収束することができる丸い輪郭に対応するであろう。

 

 
楕円形の輪郭と円形の輪郭

 

 
勾配降下軌道

  2)いくつかの分類器は、サンプル、例えば、KNNとの間の距離(例えば、ユークリッド距離)を算出する必要があります。特性値の範囲が非常に大きい場合、距離計算は、この機能に依存するため、実際の状況と一致しない(例えば、その現実は、特徴の小さな値の範囲がより重要であるということです)。

(2)無次元
  な家屋番号や収入などを、我々はビジネス層から知っているので、両方の重要性など、そのすべてのそれらの正規化されました。このプロセスは、運用レベルで作られています。

(3)数値的な問題を避ける
  数が数値的な問題を引き起こす可能性が大きすぎるし。

3つのデータ前処理
3.1正規化
(1)正規化最小・最大
   X「=(X - x_min)/(X_MAX - x_min)

(2)平均正規
   X「=(X - μ)/(MaxValueを- MinValueプロパティ)
  (1)及び(2)新たなデータが追加された欠陥がある、最大と最小の変化につながる可能性があり、それが必要であり、再定義します。

(3)非线性归一化
  1)对数函数转换:y = log10(x)
  2)反余切函数转换:y = atan(x) * 2 / π
  (3)经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

3.2 标准化
(1)Z-score规范化(标准差标准化 / 零均值标准化)
  x' = (x - μ)/σ

3.3 中心化
  x' = x - μ

4 什么时候用归一化?什么时候用标准化?
  (1)如果对输出结果范围有要求,用归一化。
  (2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
  (3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。
  某知乎答主的回答提到了他个人经验:一般来说,我个人建议优先使用标准哈。对于输出有要求时再尝试别的方法,如归一化或者更加复杂的方法。很多方法都可以将输出范围调整到[0, 1],如果我们对于数据的分布有假设的话,更加有效的方法是使用相对应的概率密度函数来转换。让我们以高斯分布为例,我们可以首先计算高斯误差函数(Gaussian Error Function),此处定为er fc(·),那么可以用下式进行转化:

 
 


  这篇博客提到他的经验:1) 在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,第二种方法(Z-score standardization)表现更好。2) 在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

 

5 哪些模型必须归一化/标准化?
(1)SVM
  不同的模型对特征的分布假设是不一样的。比如SVM 用高斯核的时候,所有维度共用一个方差,这不就假设特征分布是圆的么,输入椭圆的就坑了人家,所以简单的归一化都还不够好,来杯白化才有劲。比如用树的时候就是各个维度各算各的切分点,没所谓。

(2)KNN
  需要度量距离的模型,一般在特征值差距较大时,都会进行归一化/标准化。不然会出现“大数吃小数”。

(3)神经网络
  1)数值问题
  归一化/标准化可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也并不是那么困难。因为tansig(tanh)的非线性区间大约在[-1.7,1.7]。意味着要使神经元有效,tansig( w1x1 + w2x2 +b) 里的 w1x1 +w2x2 +b 数量级应该在 1 (1.7所在的数量级)左右。这时输入较大,就意味着权值必须较小,一个较大,一个较小,两者相乘,就引起数值问题了。
  假如你的输入是421,你也许认为,这并不是一个太大的数,但因为有效权值大概会在1/421左右,例如0.00243,那么,在matlab里输入 421·0.00243 == 0.421·2.43,会发现不相等,这就是一个数值问题。

  2)求解需要
  a. 初始化:在初始化时我们希望每个神经元初始化成有效的状态,tansig函数在[-1.7, 1.7]范围内有较好的非线性,所以我们希望函数的输入和神经元的初始化都能在合理的范围内使得每个神经元在初始时是有效的。(如果权值初始化在[-1,1]且输入没有归一化且过大,会使得神经元饱和)
  b. 梯度:以输入-隐层-输出这样的三层BP为例,我们知道对于输入-隐层权值的梯度有2ew(1-a^2)*x的形式(e是誤差,w是隐层到输出层的权重,a是隐层神经元的值,x是输入),若果输出层的数量级很大,会引起e的数量级很大,同理,w为了将隐层(数量级为1)映身到输出层,w也会很大,再加上x也很大的话,从梯度公式可以看出,三者相乘,梯度就非常大了。这时会给梯度的更新带来数值问题。
  c. 学习率:由(2)中,知道梯度非常大,学习率就必须非常小,因此,学习率(学习率初始值)的选择需要参考输入的范围,不如直接将数据归一化,这样学习率就不必再根据数据范围作调整。 隐层到输出层的权值梯度可以写成 2ea,而输入层到隐层的权值梯度为 2ew(1-a^2)x ,受 x 和 w 的影响,各个梯度的数量级不相同,因此,它们需要的学习率数量级也就不相同。对w1适合的学习率,可能相对于w2来说会太小,若果使用适合w1的学习率,会导致在w2方向上步进非常慢,会消耗非常多的时间,而使用适合w2的学习率,对w1来说又太大,搜索不到适合w1的解。如果使用固定学习率,而数据没归一化,则后果可想而知。
  d.搜索轨迹:已解释
  
(4)PCA

参考:
标准化和归一化什么区别? - 知乎:https://www.zhihu.com/question/20467170
R--数据标准化、归一化、中心化处理:https://zhuanlan.zhihu.com/p/33727799
特征工程中的[归一化]有什么作用? - 知乎:https://www.zhihu.com/question/20455227
神经网络为什么要归一化:http://nnetinfo.com/nninfo/showText.jsp?id=37

作者:brucep3
链接:https://www.jianshu.com/p/95a8f035c86c
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

おすすめ

転載: www.cnblogs.com/lixiaozhi/p/11712572.html