定义
归一化:
标准化:
其中 和 代表样本的均值和标准差, 为最大值, 为最小值。
本质
归一化和标准化的本质是线性变换。
线性变换有很多良好的性质,这些性质决定了为什么对数据进行改变后竟然不会造成“失效”,反而还能提高数据的表现。
两者区别
归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。
- 归一化:缩放仅仅跟最大、最小值的差别有关。
- 标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。
- 归一化: 输出范围在0-1之间
- 标准化:输出范围是负无穷到正无穷
应用场景
对输出结果范围有要求,用归一化
数据较为稳定,不存在极端的最大最小值,用归一化
(如果样本中具有不同量纲的指标,最好进行归一化)
数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响