数据概览

1）明确任务：预测二手车交易价格这一任务主要为回归任务，共计包含31列特征，其中不仅包含连续参数，同时还包含离散参数。通过对这31列特征进行建模，从而根据二手车的相关特征获得该二手车可能的交易价格。
2）数据统计：通过describe()函数对数据的整体统计量进行观察，把握大体数据范围，也可以通过Max和Min初步掌握异常值情况。
3）数据类型统计：通过info()函数对数据类型整体进行观察。

缺失值/异常值处理

1）缺失值处理：
（1）通过isnull().sum()函数初步查看nan情况。
（2）对缺失值采用可视化进行查看，可直观了解情况。可以采用bar、matrix等。
（3）根据缺失值情况进行补充或删除处理。若缺失数据较多，可直接删除，若尚可，可进行补充。若采用的模型对nan可以直接处理，也可不做处理。
2）异常值处理：
（1）采用.info()对数据类型进行统计分析，重点观察非数字类特征（object）
（2）通过value_counts()统计具有非数字类特征的参数信息。
（3）若有空缺值，也可进行删除或补充。
3）其他：
（1）若特征中出现严重偏斜，例如某特征是0和1表示的离散特征，若某一类99%，另一类1%，要特别注意，若此偏斜和研究问题无关，例如，和分类的类别无关，每个类别中都有0和1且偏斜，一般意义不大，可删除。

数据分布概况

1）预测值分布情况：
（1）根据预测值分布概况进行分布拟合，若预测值不服从正态分布，需要在建模前进行转换。
（2）进一步查看分布的Skewness和Kurtosis。Skewness用来描述数据分布的对称性，大于0即分布右偏，小于0即分布左偏。Kurtosis用来描述数据分布的尖锐程度，大于0即尖顶峰，小于0即平顶峰。
（3）查看预测值的具体频数。
（4）选择进行正态分布变换分布。

2）特征分布情况：
（1）可以通过value_counts()进行探索。

特征与预测值关系情况：
（1）连续特征：相关性分析、查看偏度和峭度、分布可视化、以及特征包括和预测值之间的关系可视化
（2）离散特征：分布、箱型图可视化、小提琴图可视化、频数可视化

数据报告

可用pandas_profiling生成数据报告。

个人理解和总结

数据分析这一阶段主要是对数据有一个整体的把握，包括样本量、特征含义、特征类型以及分布情况。
2）数据分析这一阶段应该主要是对数据整体有个了解，我平时接触的时候这个数据分析阶段主要就是对样本量、异常值等进行了解、分析、处理，也就是俗称的数据预处理阶段。所以在刚刚开始阅读的时候不太理解这一部分的内容。但不同方向、不同思路也丰富了我的理解。

以天池二手车价格预测为例进行实践探索：

数据读取，pd.csv_read(open(path), sep=’ ‘)，可以将列表中按照’ '进行分开。
2）依照引文，依次对“notRepairedDamage”、“seller”和“offerType”进行替代和处理操作。
3）直接采用XGBoost进行建模，使用五折交叉验证，并用XGBoost输出结果进行上传。
4）本次实践仅仅是想完成一次建模，并未在数据预处理、特征提取以及建模上有过多考虑，不追求精度，仅仅是完成建模。
5）在数据分析过程中，业务问题相关的经验知识也是即为重要的，对比如特征工程等部分具有很重要的影响。

lybch1

发布了5 篇原创文章 · 获赞 0 · 访问量 333

私信关注