数据归一化(标准化)

数据归一化

数据预处理中,标准的第一步是数据归一化。虽然这里有一系列可行的方法,但是这一步通常是根据数据的具体情况而明确选择的。特征归一化常用的方法包含如下几种:

  • min-max标准化
  • 逐样本均值消减(也称为移除直流分量)
  • Z-score

    标准化(使数据集中所有特征都具有零均值和单位方差)

min-max标准化(Min-Max Normalization)(线性函数归一化)

定义:也称为离差标准化,是对原始数据的线性变换,使得结果映射到0-1之间。

本质:把数变为[0,1]之间的小数。

转换函数:(X-Min/(Max-Min)

如果想要将数据映射到[-1,1],则将公式换成:(X-Mean/(Max-Min)

其中:max为样本数据的最大值,min为样本数据的最小值,Mean表示数据的均值。

缺陷:当有新数据加入时,可导致max和min的变化,需要重新定义。

Z-score标准化

扫描二维码关注公众号,回复: 4463609 查看本文章

定义:这种方法给与原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1.

本质:把有量纲表达式变成无量纲表达式。

转换函数:(X-Mean)/(Standard deviation)

其中,Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

逐样本均值消减

如果你的数据是平稳的(即数据每一个维度的统计都服从相同分布),那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

Eg:对于图像,这种归一化可以移除图像的平均亮度值 (intensity)。很多情况下我们对图像的照度并不感兴趣,而更多地关注其内容,这时对每个数据点移除像素的均值是有意义的。

注意:虽然该方法广泛地应用于图像,但在处理彩色图像时需要格外小心,具体来说,是因为不同色彩通道中的像素并不都存在平稳特性。

猜你喜欢

转载自www.cnblogs.com/jiangkejie/p/10103580.html