数据预处理

离群点检测

https://blog.csdn.net/littlely_ll/article/details/68486537

缺失值补充[知乎]机器学习中如何处理缺失数据? - 马骏的回答 - 知乎 https://www.zhihu.com/question/26639110/answer/33712286

1 可以通过中位数、众数、平均值等方式进行填充。相当于是认为制造噪点。

2 用预测值填充,由于是模型预测得到的结果,所以数据对拟合模型元素是无用功。

3 把增加一个变量,直接这个特征增加缺失值这一个属性,能够保持原有数据的信息量,但是会造成计算复杂度。

数据偏态分布http://www.statisticshowto.com/probability-and-statistics/skewed-distribution/

使用log transformation方式处理。

猜你喜欢

转载自www.cnblogs.com/kangronghu/p/9060646.html