excel数据分析--以某保险公司客户索赔数据为例

最近在学excel数据分析,感觉excel的数据分析功能很不错,在这里记录了本人的一次对某保险公司客户索赔数据的数据分析过程。

首先先理清一下数据分析的思路和步骤:
1、拿到相关的统计数据
2、根据问题思考什么样的客户意向最大,提出问题
3、根据问题,清洗数据
4、构建模型
5、数据可视化分析

(一)先拿到一份数据表(稍微处理的一个数据表格,时间列变为日期型):
在这里插入图片描述

(二)然后根据表格提出相关问题:
1)不同省份的索赔额情况
2)不同的年龄的索赔额分布是怎样的
3)不同时间段的索赔额分布是怎样的
4)不同性别的索赔额情况是怎样的

(三)清洗数据
1)选择需要使用到的数据,把无关的数据可以隐藏起来
字段:保险单号,损失类型,保险类型,邮编这四个字段分析师用不到,所以暂时可以隐藏掉
2)删除重复值
在这个表中,索赔单号是唯一的,所以可以根据这个来删除重复不需要的数据
可通过【数据】-【删除重复值】实现
在这里插入图片描述

3)缺失值处理
可通过【开始】-【查找和选择】-【定位条件】-【空值】来定位出缺失值
该文本有缺失值,用黄颜色背景色标识出来
缺失项一般可以这样处理:
人工手动补全(缺失值较少时);
删除缺失值的项;
用平均值代替缺失值; 本案例使用各字段的平均值代替缺失值
用统计模型计算出的值代替缺失值;
4)一致化处理
数据格式设置要统一,可设置标准的日期、数值或文本格式,便于后续的分析;

在这里插入图片描述

(四)根据问题,来处理数据
1)不同省份的索赔额情况

在这里插入图片描述
得出的结论是:索赔额前三名分别是广东省,广西省,辽宁省.金额分别是13446150,8852200,7031650
索赔总额最后三位为云南省,西藏,青海省经济不发达地区

2)不同的年龄段的索赔额分布是怎样的
在这里插入图片描述
得出的结论是:从图可以看出20-29岁的人数为19%
30-39岁的人数为24%
40-49岁的人数为26%
50-59岁的人数为24%
60-69岁的人数为7%

3)2016年不同时间段的索赔额分布是怎样的

在这里插入图片描述
得出的结论是:2016年不同时间段的索赔额分布比较平均
可以看出索赔额集中在8000元左右

4)全国男女索赔人数情况以及广东省男女索赔人数情况如何

全国男性索赔人数
=COUNTIF(C2:C10001,“男”) 4627人

全国女性索赔人数
=COUNTIF(C2:C10001,“女”) 5373人

广东省女性索赔人数
=COUNTIFS(C2:C10001,“女”,M2:M10001,“广东省”) 829人

广东省男性索赔人数
=COUNTIFS(C2:C10001,“男”,M2:M10001,“广东省”) 730人

在这里插入图片描述

得出的结论是:全国女性索赔人数大于男性人数,广东省跟全国的趋势差不多, 也是女性索赔人数大于男性人数。

猜你喜欢

转载自blog.csdn.net/qq_40646956/article/details/87801485