数据缺失值填补

缺失值填充方法包括简单填充、属性填充和实例填充三种类型,本文主要研究属性填充方式。

填充依赖原始数据的单一或少量属性维度,利用属性间的关系或属性潜在的规则对缺失值进行填充。

常用的属性填充方法有:基于回归分析、信息增益、灰色预测的方法和EM 算法等。

基于回归分析的填充方法通过拟合回归数学模型计算缺失值,该方法仅适用于满足确定数学模型的数据集;基于信息增益的方法,依据与缺失数据关联密切的属性对缺失值进行填充,该方法针对标称型数据效果良好,但不适用于数值型数据;

序列缺失数据的灰插值推理方法通过引入灰色预测模型拟合单属性函数,插值填充缺失值,取得了良好的效果,然而该算法限制了训练模型,可伸缩性不强;

基于EM 模型的填充方法认为数据服从含参分布,算法经过多次迭代收敛填充缺失数据,得到的填充效果良好但迭代方式很大程度地加大了算法复杂性,限制了方法的实际应用。

猜你喜欢

转载自blog.csdn.net/weixin_41512727/article/details/83061754