机器学习中常用的数据预处理方法

我们在现实世界中处理大量的原始数据。机器学习算法期望数据在开始培训过程之前以某种方式格式化。首先定义样本数据如下:

1 input_data=np.array([[5.1,-2.9,3.3],
2                      [-1.2,7.8,-6.1],
3                      [3.9,0.4,2.1],
4                      [7.3,-9.9,-4.5]])

Binarization

Binarization将大于阈值的数据转化为1,将小于阈值的数据转化为0。

1 #binarize data
2 data_binarized=preprocessing.Binarizer(threshold=2.1).transform(input_data)
3 print("\nBinarized data:\n",data_binarized)

调用预处理内建函数输出如下:

1 Binarized data:
2  [[1. 0. 1.]
3  [0. 1. 0.]
4  [1. 0. 0.]
5  [1. 0. 0.]]

 

猜你喜欢

转载自www.cnblogs.com/jeapwu/p/11414097.html
今日推荐