Pandas+NumPy之数据分析1——FIFA2018球员数据分析

  • 分析目的:对FIFA2018球员信息情况做个总体了解
  • 数据源:FIFA_2018_player.csv

1.模块及数据导入

模块导入

数据导入

2.数据概览

head()方法展示表格前几行的数据,默认前5行,了解表格大致情况,有哪些字段,值的类型

describe()方法展示数值型字段的几个常用的统计量:计数,平均数,标准差,最小值,分位数,最大值

3.数据清理

所有需要分析的数据都需要看下

查看是否有空缺值(None值),对于None值,如果需要该字段信息,当数据量小,可以查下真实数据,然后重新赋值,数据量大是可以和真实数据merge,如果不需要用到字段,可以不处理。数据量很大时,如果数量大且只有这一份数据,可以删除处理,对结果影响不大

count()方法不统计None值

is.null()方法查看包含None值的行

drop()方法删除对应索引的行

检查数据准确性:准确性,合法性
如果有完整的俱乐部和联赛信息,可以将数据与准确数据进行对比和数据处理,以保证准确性
异常值:eur_value字段最小值为0,需要处理

eur_value为0的列可以使用平均值填充(只有几条数据,也可以删除)看下是否填充成功

4.数据清洗完毕,开始分析

国家维度的运动员数

球员年龄段分布为了图标展示好看处理index

饼图也可

猜你喜欢

转载自www.cnblogs.com/daisyxxx/p/12649873.html