TASK 2 数据的探索性分析(EDA)

TASK 2 数据的探索性分析(EDA)

总结自《Datawhale 零基础入门数据挖掘-Task2 数据分析》-AI蜗牛车

数据概览

1)明确任务:预测二手车交易价格这一任务主要为回归任务,共计包含31列特征,其中不仅包含连续参数,同时还包含离散参数。通过对这31列特征进行建模,从而根据二手车的相关特征获得该二手车可能的交易价格。
2)数据统计:通过describe()函数对数据的整体统计量进行观察,把握大体数据范围,也可以通过Max和Min初步掌握异常值情况。
3)数据类型统计:通过info()函数对数据类型整体进行观察。

缺失值/异常值处理

1)缺失值处理:
(1)通过isnull().sum()函数初步查看nan情况。
(2)对缺失值采用可视化进行查看,可直观了解情况。可以采用bar、matrix等。
(3)根据缺失值情况进行补充或删除处理。若缺失数据较多,可直接删除,若尚可,可进行补充。若采用的模型对nan可以直接处理,也可不做处理。
2)异常值处理:
(1)采用.info()对数据类型进行统计分析,重点观察非数字类特征(object)
(2)通过value_counts()统计具有非数字类特征的参数信息。
(3)若有空缺值,也可进行删除或补充。
3)其他:
(1)若特征中出现严重偏斜,例如某特征是0和1表示的离散特征,若某一类99%,另一类1%,要特别注意,若此偏斜和研究问题无关,例如,和分类的类别无关,每个类别中都有0和1且偏斜,一般意义不大,可删除。

数据分布概况

1)预测值分布情况:
(1)根据预测值分布概况进行分布拟合,若预测值不服从正态分布,需要在建模前进行转换。
(2)进一步查看分布的Skewness和Kurtosis。Skewness用来描述数据分布的对称性,大于0即分布右偏,小于0即分布左偏。Kurtosis用来描述数据分布的尖锐程度,大于0即尖顶峰,小于0即平顶峰。
(3)查看预测值的具体频数。
(4)选择进行正态分布变换分布。

2)特征分布情况:
(1)可以通过value_counts()进行探索。

  1. 特征与预测值关系情况:
    (1)连续特征:相关性分析、查看偏度和峭度、分布可视化、以及特征包括和预测值之间的关系可视化
    (2)离散特征:分布、箱型图可视化、小提琴图可视化、频数可视化

数据报告

  1. 可用pandas_profiling生成数据报告。

个人理解和总结

  1. 数据分析这一阶段主要是对数据有一个整体的把握,包括样本量、特征含义、特征类型以及分布情况。
    2)数据分析这一阶段应该主要是对数据整体有个了解,我平时接触的时候这个数据分析阶段主要就是对样本量、异常值等进行了解、分析、处理,也就是俗称的数据预处理阶段。所以在刚刚开始阅读的时候不太理解这一部分的内容。但不同方向、不同思路也丰富了我的理解。

以天池二手车价格预测为例进行实践探索:

  1. 数据读取,pd.csv_read(open(path), sep=’ ‘),可以将列表中按照’ '进行分开。
    2)依照引文,依次对“notRepairedDamage”、“seller”和“offerType”进行替代和处理操作。
    3)直接采用XGBoost进行建模,使用五折交叉验证,并用XGBoost输出结果进行上传。
    4)本次实践仅仅是想完成一次建模,并未在数据预处理、特征提取以及建模上有过多考虑,不追求精度,仅仅是完成建模。
    5)在数据分析过程中,业务问题相关的经验知识也是即为重要的,对比如特征工程等部分具有很重要的影响。
发布了5 篇原创文章 · 获赞 0 · 访问量 333

猜你喜欢

转载自blog.csdn.net/lybch1/article/details/105023409