- 分析目的:对FIFA2018球员信息情况做个总体了解
- 数据源:FIFA_2018_player.csv
1.模块及数据导入
模块导入
数据导入
2.数据概览
head()方法展示表格前几行的数据,默认前5行,了解表格大致情况,有哪些字段,值的类型
describe()方法展示数值型字段的几个常用的统计量:计数,平均数,标准差,最小值,分位数,最大值
3.数据清理
所有需要分析的数据都需要看下
查看是否有空缺值(None值),对于None值,如果需要该字段信息,当数据量小,可以查下真实数据,然后重新赋值,数据量大是可以和真实数据merge,如果不需要用到字段,可以不处理。数据量很大时,如果数量大且只有这一份数据,可以删除处理,对结果影响不大
count()方法不统计None值
is.null()方法查看包含None值的行
drop()方法删除对应索引的行
检查数据准确性:准确性,合法性
如果有完整的俱乐部和联赛信息,可以将数据与准确数据进行对比和数据处理,以保证准确性
异常值:eur_value字段最小值为0,需要处理
eur_value为0的列可以使用平均值填充(只有几条数据,也可以删除)看下是否填充成功
4.数据清洗完毕,开始分析
国家维度的运动员数
球员年龄段分布为了图标展示好看处理index
饼图也可