数据的探索性分析


统计研究的过程

数据分析的起点(数据分类)

统计数据的分类
为什么称统计数据的分类为数据分析的起点,是因为不同类型的数据,其对应的分析方法有所差异。在分析数据时有时不仅需要好的分析结果,同时也需要有合理性的理论假设与之对应,这是经典统计学的一大特征。

一、描述性分析(整理数据)

定义

描述性分析是统计过程中的整理数据环节,对调查所得的大量数据资料进行初步的整理、归纳和展示,以找出这些资料的内在规律——集中趋势、分散趋势、偏态和峰态,是为了更好地描述数据的特征.

主要作用

  1. 产生所有个案或不同分组个案的综合统计量及图形;

    个案又叫变量集的一条观测,指一条数据。

  2. 提供常见的统计量与描述图,例如均值、方差、最值等;

  3. 可用于进行数据筛查,发现奇异值;

  4. 可用于描述性分析,假设检验及不同分组个案的特征描述.

可视化技术

定义

可视化分析使用统计图进行数据可视化展示和分析有着直观、生动等良好效果. 可视化不断演变,边界在不断地扩大. 与高级的技术方法结合,允许利用图形、图像处理、计算机视觉、人机互动等技术,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释.

主要作用

  1. 明悉数据的含义、理解数据结构,发现异常值、筛查数据,以便于进行数据合并、清洗、整理;
  2. 通过对数据的主要信息提取,分析者对待问题的理解会不断深入,有助于将商业问题转化为可行的数据分析问题,也有利于结合行业背景选择合适的数据分析方法.
  3. 易于结果的展示;精炼模型、信息,加快知识的传播.

常用方法

基于不同的数据类型,可视化方法和描述性统计分析一样有不同的方法展示. 下表简要总结了单变量中描述统计和可视化的关系:(多变量可视化会在相关分析中提及)

数据结构 统计量 统计图表
连续变量 平均值,中位数,众数,最小值,
最大值,四分位数,标准差等
统计量表,直方图,茎叶图,箱线图
无序型离散变量 各个变量值出现的频数和占比 频数分布表,条形图,饼图
有序型离散变量 各个变量值出现的频数和占比 频数分布表,条形图

可视化的其他用途

  1. 直方图看图形与钟形曲线吻合程度、
  2. 箱线图看图形是否对称、
  3. P-P图和Q-Q图可以用来比较数据是否符合指定分布.

二、相关性分析(分析数据)

定义

相关关系是相对于函数关系来说的,是指变量间确实存在、但数量上不固定的相互依存.
特点:

  1. 这种关系不能用函数关系精确表达;
  2. 一个变量的取值不能由另一个变量惟一地确定;
  3. 当变量 x 取某个值时,与之相关的变量 y 的取值可能有若干个;
  4. 各观测点分布在一条直线或曲线周围.

主要作用

  1. 判明所考察的定量数据各属性之间有无关联,即是否独立.
  2. 在判定变量之间存在关联性后,用多种定量指标来刻画其关联程度.

相关性分类

分类 因素个数 表现形态 相关的方向 涉及的变量类型 考察问题 常用指标
类1 单相关 直线相关 正相关 相关分析(定量) 有无关联 Pearson、Spearman
类2 复相关 曲线相关 负相关 列联分析(定性) 关联程度 列联系数、kendall

相关性测定

在测定相关性的时候,要确定测定的是相关性分类中的哪种相关性,按图索骥,从而选择合适的方法。两变量之间的相关关系也可以用图形来表示,通常是使用绘制散点图的方法进行衡量,通过散点的分布可以判断线性相关还是非线性相关. 当存在离散型变量是,散点图就不太能观察变量间的相关关系,可以通过复式箱型图或复试条形图简单观察,变量间的相关关系.

数据类型 统计量 图表
连续*连续 Pearson、Spearman、Kendall、偏相关系数 散点图、相关系数矩阵、热图
离散*连续 T检验中t统计量、显著值、方差分析 直方图、复式箱形图、小提琴图
离散*离散(有序) Kendall系数、Spearman相关系数 交叉列联表、网络图(多个离散)
离散*离散(无序) 列联系数、phi、V相关系数 交叉列联表、复式条形图

三、假设检验(分析数据)

定义

假设检验是事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。(先说假设,后验证)

作用

  1. 单总体时可以验证总体参数是否与预期一致(例如均值和方差)
  2. 两总体时可以验证两者的总体参数是否具有显著性差异(例如两总体的均值和方差是否相等)
  3. 多总体时主要是验证不同总体之间的均值是否相等,也可以理解成分类型变量对连续型变量是否具有影响(例如方差分析)

步骤(相对理论)

  1. 提出假设
  2. 确定适当的检验统计量
  3. 规定显著性水平α
  4. 计算检验统计量的值
  5. 作出统计决策

在做任何一个假设检验之前,要首先明白原假设和备择假设是什么. 常用的假设检验通常要满足正态分布的假定,非参数假设检验不需要.

常见的假设检验的分类

包括单总体和两总体均值、比例和方差的假设检验。

在这里插入图片描述
在这里插入图片描述

当对多总体的均值进行检验的时候,t检验就变成了方差分析,相对于配对t检验或独立样本t检验,方差分析的效率更高,只要有一组均值显著不相等就可以通过方差分析,因此方差分析在使用的时候要注意两点:一、不同组的样本个数是不是特别不均衡;二、要配合均值的多重比较使用,更能清晰地看到是哪些组的均值显著不相等.

四、回归分析(分析数据、解释数据)

定义

回归分析是相关分析的深化,相关分析是回归分析的基础。回归分析是一种预测性的建模技术,它研究的是因变量(结果)和自变量(原因)之间的数量化关系.

分类

回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;

按照因变量的多少,可分为简单回归分析和多重回归分析;

按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析.

步骤

回归分析的步骤一般是:

  1. 根据自变量与因变量的现有数据以及关系,设定回归模型;

  2. 求出合理的回归系数;

  3. 对模型和回归系数进行显著性检验(R方和回归系数t检验)

  4. 残差分析,共线性诊断等;

    1. 残差分析:自回归、正态性、异方差、库克距离

      自回归通常德宾沃森检验;正态性是用直方图和P-P图;异方差一般是通过残差图来确定

残差的散点图

  1. 模型预测:在符合要求后,即可根据已得的回归方程进行预测,并计算预测值的置信区间等.

回归分析的方法一般有前进法、后退法、逐步回归法和全子集法.

猜你喜欢

转载自blog.csdn.net/weixin_43899514/article/details/111874058