特征向量的缺失值处理

作者:离散木木夕

欢迎大家给出宝贵的建议!



特征向量的缺失值处理


1.缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成影响。

别人的经验:

(1)数据量很小用贝叶斯,适中较大用xgboost,或神经网络。

(2)避免使用距离度量相关的模型,如Knn和SVM,因为计算两点距离。所以缺失值比较重要,处理不当会导致效果很差。

2.缺失值较少,其余的特征缺失值都在10%以内。

(1)把NAN直接作为一个特征,假设用0表示;

(2)用均值填充;

(3)用随机森林等算法预测填充;(我的理解是用同一列已知数据做回归预测)

(4)用插值法填充;

#插值法就是两点(Xo,Yo),(X1,Y2)估计中间点的值。data_train.interpolate()

(5)用上下数据进行填充;

猜你喜欢

转载自blog.csdn.net/JonyHwang/article/details/80984166
今日推荐