【数据分析】互联网金融客户画像

目录

 

项目背景

分析思路

理解数据

数据预处理

数据分析(构建模型)

总结和建议

技术点


项目背景

分析思路

  1. 熟悉数据:导入数据、熟悉数据、分类变量。
  2. 数据清洗:统一变量名、缺失值处理、重复值和异常值处理
  3. 逾期用户画像:用户基本信息分析、用户行为信息分析
  4. 不良率分析:随记录时间变化趋势、与年龄性别的相关性、与初始评级的相关性、与借贷信息的相关性
  5. 总结与建议

理解数据

  • 还款情况:与还款相关变量
  • 基本属性:年龄、性别、学历
  • 行为属性:手机认证、视频认证、网页认证、浏览认证
  • 借贷信息:借贷金额、借贷期限、借贷利率等
  • 交易信息:客户发生交易行为数据。如:购物等

数据预处理

为属性重命名

统计变量的缺失情况,为缺失率做分析,

  • 下次计划还款利息、上次还款利息
  • 历史成功借款金额(当我们无法得知数据为什么缺失的时候,我们应该取问问业务部门)
  • 认证信息:户口认证、学历认证、淘宝认证、征信认证(只保留成功认证和未成功认证)

重复值的处理

在业务部门中确定很多东西

数据分析(构建模型)

  • 不同性别的放贷比率与逾期表现(那种性别放贷风险高)
  • 通过透视表pivot_table(data,columns,index,value,aggfunc=np.size)
    • 不同年龄放贷比率与逾期表现:各个年龄段借款金额的占比和cursum向前求和.分析得到36岁之前借款金额占百分之八十。年龄段在23到27岁借款已经占据百分之八十,55岁之后借款非常少
  • 各年龄段与贷款比数的情况:使用cut对年龄进行分段,按照不同年龄段统计贷款比数。
  • 年龄在25到30岁之间的借款在44.9%左右,逾期占比也是3.07%,逾期占比比较高的在55岁以上,24-30之间的用户贷款比较多,逾期比较少,可能是这个年龄段的人对贷款的需求比较高,收益也比较快
  • 学历认证成功与逾期的关系(不同的学历--是否认证--认证成功逾期占比与认证不成功逾期占比)
  • 淘宝认证:进行过淘宝认证的人群逾期会宽泛一点
  • 手机认证,视频认证,户口认证

总结和建议

总结

  • 男性借款指数是女性借款指数的近两倍,逾期男性用户也要高于女性用户
  • 学历认证和未认证人群比例1:1,相比之下进行过学历认证的人群逾期指数会低一点
  • 36岁一下的人口占比80%,25-30之间借款指数占比35%,平台主力军,可以为这些人做一些营销活动,吸引人群,增加用户量,55岁以上用户逾期占比比较高,这部分用户以后需要严格审核

建议

  • 年龄在55岁以上,学历比较低,未进行成功认证的人群以后要严加审核
  • 年龄在26-35之间的用户占整个用户比重的80%,逾期率也比较低,这部分客户我们应该想办法吸引
  • 平台不要认为认证成功的人群不是很可靠,对认证成功的用户也要严格审核

技术点

  • 最常用的就是pivot_table()和groupby()函数
发布了133 篇原创文章 · 获赞 67 · 访问量 9909

猜你喜欢

转载自blog.csdn.net/weixin_43797885/article/details/104725370