机器学习二:数据处理

目的:将整个数据集调整为对算法干扰最小的结构,以便提高最终算法的训练效果。

一、采样
在数据集中,未必所有的数据都需要,用采样提取数据
采样:按照某种规律从样本中挑选目标数据
1、随机采样
有放回/无放回
2、系统采样
等距采样,无放回
3、分层采样
将数据分类,在每个类中抽取,再进行组合
二、归一化
当数据集中的数据变化梯度大小不一,如同时存在年、月、日、米、光年等量纲时,相互之间的变换呈10的n次幂,用归一化可以减少这种计算。
归一化:将数据限定在[0,1],简化计算

三、去噪
样本中可能存在与常规信息不符的信息,这类信息对训练效果有极大影响,尤其是线性算法。
正态分布3倍方差原则:将落在三倍方差以外的点设为噪声除掉

四、过滤
同一份数据,目的不同,就要用不同的信息进行训练处理,挑取对本次训练有益的数据即为过滤。
去除不想作为训练样本但又不是噪声的数据,这与去噪不同。

猜你喜欢

转载自blog.csdn.net/abandononeself/article/details/118445113