机器学习之数据分析

前序工作:数据清洗、数据采样、特征工程、模型选择、交叉验证、寻找最佳超参。

 

1. 分析数据的各属性,查看各属性的数据是否齐全;

2. 可以利用describe()函数对数据进行一个全面的认识;

3. 可以绘制条形图来查看各个属性或多个属性对目标类别的影响;

4. 遇到缺失值要对缺失值进行处理:

      若缺值的样本数占总数比例极高,则可以直接舍弃;

      若缺值的样本适中,且该属性为非连续值特征属性,则可以将NaN作为一个新类别;

      若缺值的样本适中,且该属性为连续值特征属性,则可以考虑离散化,将NaN作为一个新类别;

      若缺值的样本不是很多,则可以利用已有的值拟合一下数据。

5. 对于类目型特征可以进行因子化one-hot编码;

6. 若有的属性的数值范围变化较大,可以对其进行标准化;

7. 构建完模型后可以利用学习曲线判定一下当前模型所处的状态(欠拟合或过拟合);

           过拟合解决方法:做一下特征选择,挑出较好的特征训练;

                                      提供更多的数据;

          欠拟合解决方法:需要更多的特征;

8. 做交叉验证来优化模型系统;

9. 通过模型融合来优化模型。


猜你喜欢

转载自blog.csdn.net/qq_24003917/article/details/79503544