@R星校长
第1
关:标准化
- 为什么要进行标准化,
Z-score
标准化,Min-max
标准化,MaxAbs
标准化。
为什么要进行标准化
对于大多数数据挖掘算法来说,数据集的标准化是基本要求。这是因为,如果特征不服从或者近似服从标准正态分布(即,零均值、单位标准差的正态分布)的话,算法的表现会大打折扣。实际上,我们经常忽略数据的分布形状,而仅仅做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值,方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征,那么,这个特征可能在目标函数中占主导地位,这使得模型不能从其它特征有效地学习。
Z-score标准化
这种方法基于原始数据的均值mean
和标准差standard deviation
进行数据的标准化。将特征A
的原始值x
使用z-score
标准化到x’
。z-score
标准化方法适用于特征A
的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。将数据按其特征(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个特征/每列来说所有数据都聚集在0
附近,方差值为1
。数学公式如下:
函数scale
为数组形状的数据集的标准化提供了一个快捷实现:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]])
X_scaled = preprocessing.scale(X_train)
>>>X_scaled
array([[ 0. ..., -1.22..., 1.33...],
[ 1.22..., 0. ..., -0.26...],
[-1.22..., 1.22..., -1.06...]])
经过缩放后的数据具有零均值以及标准方差:
>>> X_scaled.mean(axis=0)
array([ 0., 0., 0.])
>>> X_scaled.std(axis=0)
array([ 1., 1., 1.])
Min-max标准化
Min-max
标准化方法是对原始数据进行线性变换。设minA
和maxA
分别为特征A
的最小值和最大值,将A
的一个原始值x
通过min-max
标准化映射成在区间[0,1]
中的值x'
,其公式为:
可以使用MinMaxScaler
实现,以下是一个将简单的数据矩阵缩放到[0, 1]
的例子:
X_train = np.array([[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
>>> X_train_minmax
array([[ 0.5 , 0. , 1. ],
[ 1. , 0.5 , 0.33333333],
[ 0. , 1. , 0. ]])
MaxAbs标准化
MaxAbs
的工作原理与Min-max
非常相似,但是它只通过除以每个特征的最大值将训练数据特征缩放至 [-1, 1]
范围内,这就意味着,训练数据应该是已经零中心化或者是稀疏数据。公式如下:
可以使用MaxAbsScale
实现,以下是使用上例中数据运用这个缩放器的例子:
X_train = np.array([[ 1., -1., 2.],
[ 2., 0., 0.],
[ 0., 1., -1.]])
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
>>> X_train_maxabs
array([[ 0.5, -1. , 1. ],
[ 1. , 0. , 0. ],
[ 0. , 1. , -0.5]])
编程要求
在右侧编辑器Begin-End处补充Python代码,实现数据标准化方法,我们会使用实现好的方法对数据进行处理。
测试说明
我们会调用你实现的方法对数据进行处理,如使用Z-score
方法,则处理后数据均值为0
方差为1
,如使用minmax
方法,则处理后数据最小值为0
,最大值为1
,如使用maxabs
方法,则处理后数据最大值为1
。我们会对结果进行检测,完全正确则视为通关。
开始你的任务吧,祝你成功!
# -*- coding: utf-8 -*-
from sklearn.preprocessing import scale,MaxAbsScaler,MinMaxScaler
#实现数据预处理方法
def Preprocessing(x,y):
'''
x(ndarray):处理 数据
y(str):y等于'z_score'使用z_score方法
y等于'minmax'使用MinMaxScaler方法
y等于'maxabs'使用MaxAbsScaler方法
'''
#********* Begin *********#
if y == 'z_score':
x = scale(x)
return x
elif y == 'minmax':
min_max_scaler = MinMaxScaler()
x = min_max_scaler.fit_transform(x)
return x
elif y == 'maxabs':
maxabs = MaxAbsScaler()
x = maxabs.fit_transform(x)
return x
#********* End *********#