数据分析方法总结

    本篇博客主要是用来记录自己学习了一学期《数据分析方法》后得到的一些总结,总结各种数据分析方法的概念,思想和SAS求解及解读方面的知识点。(因为我们教的内容有点少,所以在这里我只总结了我有学到的分析)。实现的话,是用SAS9.2实现的,在示例的时候,主要解释SAS运行的结果。

1.线性回归分析

思想

变量Y与其他有关变量X1,X2,…,Xk的关系不能确切的知道,变量Y的值由两部分所构成:一部分由X1,X2,…,Xk确定,可以表示为X1,X2,…, Xk的某个函数关系式: Y = f (X1,X2,…,Xk);另一部分是众多未加考虑的因素所产生的影响,被看作是随机误差,记为ε.从而有:
Y = f (X1,X2,…,Xk) + ε

     在医学上人的身高与体重、体温与脉搏次数、年龄与血压、药物剂量与疗效等均有一定的联系。说明客观事物或现象相互关系的密切程度并用适当的统计指标表示出来,这是相关分析的任务。把客观事物或现象间的关系用函数形式表示出来,则是回归分析所要解决的问题。

     回归分析是确定一个连续变量与另一些连续变量间的关系,用于解释和预测。

    实例

  欲了解某研究所科研人员的年工资Y与他的论文质量X1、工作年限X2、获得资助指标X3之间的关系.24位科研人员的调查数据(部分)如下:
这里写图片描述
  设误差服从正态分布,建立回归方程;假定某位人员的观测值(x01,x02,x03)=(5.1,20,7.2),预测年工资及置信度为95%的置信区间.

运行代码如下:

data examp2_3;
input y x1-x3@@;
cards;
33.2 3.5 9  6.1
40.3 5.3 20 6.4
38.7 5.1 18 7.4
46.8 5.8 33 6.7
41.4 4.2 31 7.5
37.5 6.0 13 5.9
39.0 6.8 25 6.0
40.7 5.5 30 4.0
30.1 3.1 5  5.8
52.9 7.2 47 8.3
38.2 4.5 25 5.0
31.8 4.9 11 6.4
43.3 8.0 23 7.6
44.1 6.5 35 7.0
42.8 6.6 39 5.0
33.6 3.7 21 4.4
34.2 6.2 7  5.5
48.0 7.0 40 7.0
38.0 4.0 35 6.0
35.9 4.5 23 3.5
40.4 5.9 33 4.9
36.8 5.6 27 4.3
45.2 4.8 34 8.0
35.1 3.9 15 5.0
  .  5.1 20 7.2
;
run;
proc reg data=examp2_3;
model y=x1-x3/i r cli clm;
output out=d h=f;
run;
/*y=x1-x3表示求y与x1-x3的线性回归模型
i表示输出(XTX)-1
r表示输出有关残差及用于影响分析的各量,包括拟合值的标准差、残差、学生化残差及cook距离等
cli clm用于输出95%的置信区间
out=d h=f用于输出xi(XTX)-1xi
*/

主要运行结果:

                                              The REG Procedure(回归过程)
                                                 Model: MODEL1
                                             Dependent Variable: y(决定变量)

                                              Parameter Estimates(参数估计)

                                           Parameter       Standard
                      Variable     DF       Estimate          Error    t Value    Pr > |t|
                         值        自由度      参数估计         标准差       t统计量      检验p值                                 
             &nbsp;(常数项)Intercept     1       17.84693        2.00188       8.92      <.0001
                      x1            1        1.10313        0.32957       3.35      0.0032
                      x2            1        0.32152        0.03711       8.66      <.0001
                      x3            1        1.28894        0.29848       4.32      0.0003

在这里可以看到检验p值的值都是小于0.05,因此可以该模型的所有参数估计都是显著成立。如果有一个或以上系数检验不显著,要通过找另外的方程去估计。或者通过基于残差图的分析方法(常用数据变换方法——Box-Cox变换 )去变换方程。
得到回归模型:Y=17.8469+1.10313X1+0.32152X2+1.28894X3
置信区间估计:

   Dependent     Predicted                                                                                                                               Std Error    Std Error   Student
      Obs   Variable      Value  Mean Predict       95% CL Mean        <font color='red'> 95% CL Predict</font>      Residual   Residual  Residual 

  17    34.2000    34.0262        0.9062    32.1359    35.9164    29.9103    38.1420     0.1738      1.500     0.116
  18    48.0000    47.4522        0.6708    46.0530    48.8515    43.5374    51.3670     0.5478      1.619     0.338
  19    38.0000    41.2463        0.7798    39.6197    42.8729    37.2446    45.2480    -3.2463      1.570    -2.068
  20    35.9000    34.7173        0.7960    33.0568    36.3778    30.7017    38.7328     1.1827      1.562     0.757
  21    40.4000    41.2814        0.6008    40.0280    42.5347    37.4163    45.1464    -0.8814      1.647    -0.535
  22    36.8000    38.2479        0.6460    36.9005    39.5954    34.3514    42.1445    -1.4479      1.629    -0.889
  23    45.2000    44.3852        0.8309    42.6520    46.1184    40.3390    48.4313     0.8148      1.543     0.528
  24    35.1000    33.4166        0.5819    32.2029    34.6304    29.5643    37.2690     1.6834      1.653     1.018
  25          .    39.1837        0.5639    38.0073    40.3600    35.3429    43.0244          .          .         .

得到关于 (x01,x02,x03)=(5.1,20,7.2),y0的预测值为39.1837,95%置信区间为( 35.3429,43.0244)

2.方差分析

思想

由数据的总变差中分离出随机误差和系统误差。
用系统误差和随机误差在一定条件下进行比较,如差异不大则认为系统误差对指标的影响不大,如系统误差比随机误差大的多,则说明条件的影响很大。

    经常遇到这样的问题,有几种不同的原料,要考查它们对产品质量有没有显著的影响。

    某种新药与其它一些传统药物对病人进行分组实验来考查不同的药物与治愈率有否明显不同,这里我们考查的对象,原料,药物称为因素.

    当考查的因素只有一个时我们称为单因素问题。如果同时考虑两个或更多的因素问题,则称多因素方差分析(这时计算起来很复杂)。

3.主成分分析

思想

需要与可能(降维):在实际问题中,为了尽可能完整地获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的遗漏,但增加了分析的复杂性。一般来说,同一问题所涉及到的众多变量之间会存在一定的相关性,这种相关性会使各变量的信息有所“重叠”,希望对这些彼此相关的变量加以“改造”,用为数较少的、信息互不重叠的新变量来反映原变量提供的大部分信息,从而通过对为数较少的新变量的分析达到解决问题的目的。

    主成分分析和典型相关性分析便是在这种降维的思想下产生的处理高维数据的统计方法,二者均通过构造原变量的适当的线性组合提取不同信息。主成分分析着眼于考虑变量的“分散性”信息,主要目的是对原变量加以“改造”,在不致损失原变量太多信息的条件下尽可能地降低原变量的维数,即用较少的“新变量”代替原来的各变量,即:

(1)变量的降维;

(2)主成分的解释。

几何意义

从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).

设有n个观测,每个观测有p个变量X1,…,Xp , 它们的综合指标(主成分)记为Y1,…,Yp .

一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题.

求法

主成分分析的思想方法是构造原变量的一系列线性组合,使其(样本)方差达到最大

主成分的求法是求协方差矩阵或相关系数矩阵的所有特征值及相应的正交单位化特征向量;第k主成分的方差为由大到小排序后的第k个特征值,系数为对应的正交单位化特征向量

4.典型相关分析

概念

是识别与量化两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。

典型相关分析则立足于识别和量化二组变量的统计相关性。

思想

分别构造各组变量的适当线性组合,将两组变量的相关性转化为两个变量的相关性来分析,完成降维。

5.判别分析

概念

根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样本归属哪一类

思想模型

    设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本属于k个类别(或总体)G1,G2, …,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), …,Fk(x)。
    我们希望利用这些数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样本,能判定这个样本归属于哪一类。

方法

  1. 判别分析内容很丰富,方法很多。
  2. 判断分析按判别的总体数来区分,有两个总体判别分析和多总体判别分析;
  3. 按区分不同总体所用的数学模型来分,有线性判别和非线性判别;
  4. 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
  5. 判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。

6.聚类分析

思想

聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事物的特征。

所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏差。比如要对家庭教养方式进行分类,就要有描述家庭教育方式的一系列变量,这些变量能够充分地反映不同家庭对子女的教养方式。

简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物各类间的本质区别。

描述

    聚类分析完全是根据数据情况来进行的。就一个由n个个案、k个变量组成的数据文件来说 ,当对个案进行聚类分析时,相当于对k 维坐标系中的n 个点进行分组,所依据的是它们的距离;当对变量进行聚类分析时,相当于对n维坐标系中的k个点进行分组,所依据的也是点距。所以距离或相似性程度是聚类分析的基础。

    总之,聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类

猜你喜欢

转载自blog.csdn.net/weixin_37610397/article/details/78981635