记录一下,在做机器学习时,数据处理部分要花很多精力。数据处理的方式有很多种,今天记录的是[0,1]归一化,该法可以避免在较大数值范围内的特性凌驾于较小数值范围内的特性,先看下原理。
设序列代表特性A,对它们进行变换
则得到的新序列
下面看代码:
clc
clear all
% 最后一列是标签,不做标准化
data0 = [1,2,1;3,2,-1;1,4,1];
[d_r, d_c] = size(data0);
% 特征与标签分离
data_nor = data0( : , 1 : d_c - 1);
label = data0(:, d_c);
temp = zeros(d_r, d_c -1);
% 按列标准化
for w = 1 : d_c - 1
col = data_nor(:, w);
minr = min(col);
maxr = max(col);
temp(:, w) = roundn((col - minr)/(maxr - minr), -4);
end
% 组合
data = [temp,label];