特征工程-数据归一化和标准化

定义

归一化:

X i X m i n X m a x X m i n

标准化:
X i μ σ

其中 μ σ 代表样本的均值和标准差, X m a x 为最大值, X m i n 为最小值。

本质

归一化和标准化的本质是线性变换
线性变换有很多良好的性质,这些性质决定了为什么对数据进行改变后竟然不会造成“失效”,反而还能提高数据的表现

两者区别

归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

  • 归一化:缩放仅仅跟最大、最小值的差别有关。
  • 标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。
  • 归一化: 输出范围在0-1之间
  • 标准化:输出范围是负无穷到正无穷

应用场景

对输出结果范围有要求,用归一化
数据较为稳定,不存在极端的最大最小值,用归一化
(如果样本中具有不同量纲的指标,最好进行归一化)
数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响

猜你喜欢

转载自blog.csdn.net/yingfengfeixiang/article/details/80089977