机器学习与统计建模 —— 归一化和标准化

归一化(Min-Max Normalization)
特点
1、对不同特征维度进行伸缩变换 
2、改变原始数据的分布。使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形) 
3、对目标函数的影响体现在数值上 
4、把有量纲表达式变为无量纲表达式 。

好处
1、提高迭代求解的收敛速度 
2、提高迭代求解的精度

缺点
1、最大值与最小值非常容易受异常点影响 
2、鲁棒性较差,只适合传统精确小数据场景。

公式

这里写图片描述


标准化(Z-score)
特点
对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。

好处
1、不改变原始数据的分布。保持各个特征维度对目标函数的影响权重 
2、对目标函数的影响体现在几何分布上 
3、在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

公式

这里写图片描述


例子
根据人的身高和体重预测人的健康指数,假设有如下原始样本数据是四维的 

这里写图片描述

这里写图片描述
从上面两个坐标图可以看出,样本在数据值上的分布差距是不一样的,但是其几何距离是一致的。而标准化就是一种对样本数据在不同维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。

这里写图片描述

从采用大单位的身高和体重这两个特征来看,如果采用标准化,不改变样本在这两个维度上的分布,则左图还是会保持二维分布的一个扁平性;而采用归一化则会在不同维度上对数据进行不同的伸缩变化(归一区间,会改变数据的原始距离,分布,信息),使得其呈类圆形。虽然这样样本会失去原始的信息,但这防止了归一化前直接对原始数据进行梯度下降类似的优化算法时最终解被数值大的特征所主导。归一化之后,各个特征对目标函数的影响权重是一致的。这样的好处是在提高迭代求解的精度。

参考资料:
https://www.zhihu.com/question/20467170/answer/222792995
--------------------- 
作者:starter_zheng 
来源:CSDN 
原文:https://blog.csdn.net/starter_____/article/details/79215684 
版权声明:本文为博主原创文章,转载请附上博文链接!

猜你喜欢

转载自blog.csdn.net/qq_32172673/article/details/85015101