金融评分卡项目—1.数据分析基础知识

引言

  这一篇没有什么干货,主要是框架

一、数据分析的基本概念

  针对特定问题,运用适当学科知识从数据中提炼信息,形成结论。

  • 数理知识基础—统计学方面基本知识
  • 数据获取、加工能力
  • 行业知识

数据分析与数据挖掘的区别:
数据分析指对历史数据进行分析概括,侧重于利用统计学方法经过人推理演绎得出结论。数据分析的结果一般都是比较准确的统计量,具有明确含义。
数据挖掘指对用模型对未来进行预测,一般用在分类、推荐、聚类、关联法则上,侧重于由机器自己学习得出结论。数据挖掘的结果还需要进一步的判断。

1.数据分析在具体业务中的使用环境

  • 业务逻辑清晰,指标明确
  • 可以转换成恰当的数据/数学/统计问题
  • 有足够的数据支撑
  • 熟悉模型、分析方法的局限性
  • 从场景中来,到场景中去

2.数据分析的目的

  基于假设,从数据中挖掘规律,验证猜想,进行预测。

3.数据获取的途径

  • 公开信息
  • 外部数据库—万德(Wind)
  • 自有数据库
  • 调查问卷
  • 客户数据

4.数据清洗

  数据清洗一般需要满足如下要求:

  • 数据的可读性—需要加载到电脑显存中
  • 数据的完整性
  • 数据的唯一性
  • 数据的权威性
  • 数据的合法性

5.数据描述

  • 类别型变量
    取值的种类、每种取值的分布(如果测试数据较模型的训练数据中某个特征的取值分布差别大的话,模型性能会变差)
    类别型变量不能直接放到模型中使用,一般需要进行one_hot编码
  • 数值型变量
    极值和分位点、均值和标准差、变量间相关性
  • 通用
    缺失度、重复性

二、数据可视化

  数据可视化,顾名思义,以视觉的方式展示数据的手段

专业工具

  • Tableau
  • Plotly

通用工具

  • EXCEL
  • R
  • Python—matplotlib、seaborn

三、数据分析常用模型

  这部分模型基本都推导过
在这里插入图片描述

1.线性回归

在这里插入图片描述

2.树模型

在这里插入图片描述

3.支持向量机

在这里插入图片描述

4.神经网络

在这里插入图片描述

5.聚类

在这里插入图片描述

6.主成分分析

  主要常见的就是PCA
在这里插入图片描述

7.因子分析

  之前我用SPSS做过因子分析,这个操作很简单
在这里插入图片描述

8.半监督学习

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_46649052/article/details/114288410