多元统计回归分析(一)

  摘要:回归分析是数学建模过程中研究数据内部规律和趋势的重要统计学方法
,但不同的数据对应的回归分析的类型不同,得出的结论也不一样。针对回归分析的基本概念和当前比较主流的回归分析,系统详细梳理回归分析的逻辑思路。

1.回归分析的定义

回归分析是研究变量之间的因果关系的一种统计学方法。

比如,研究季节对商品的销量的影响,吸烟对产生肺癌几率的影响等形形色色的数学量都是以这样一对一对不确定的因果关系存在着,这就是典型的回归分析的范畴。
回归分析的概念:研究学生的学习时长与成绩分数的关系,其中学习时长就是自变量,对应回归方程中的x,而成绩分数就是因变量,即回归方程里面的y。

2.回归分析的分类

  一个回归方程可以有多个x(自变量),也可以有多个y(因变量);按照变量数和变量类型,可以划分为一元回归和多元回归、简单回归分析和多重回归分析;如下给出统计学回归分析的分类图:
  在进行回归分析之前,如果自变量过多,可以先做降维处理(主成分分析、因子分析、单因素筛查)删除一些没有必要的自变量,减少回归分析中自变量之间的混杂干扰。
  除了对变量的数量筛选外,用于回归分析的数据输入带有噪声,也需要进行预处理,比如缺失值填充和异常值处理。


回归分析

分类依据:按照因变量的类型(连续型、离散型)

  1. 线性回归:因变量为连续数值型变量
  • 依据:自变量的个数
    • 一元线性回归(一个自变量)
      • 最小二乘法(较简单)
    • 多元线性回归(多个自变量)
      • 岭回归
      • 主成分回归分析
      • 最小二次乘法
  1. Logistic回归:因变量为分类型变量(标签)
    比如:分类变量属于是否生病、喜不喜欢某商品、性别、学历水平等一类
  • 依据:自变量的个数
    • 二分类:无论自变量是连续还是分类变量
      • 二元logistic回归(SPSS回归软件)
    • 多分类:无序且多分类(包括3类及以上)无论自变量是连续还是分类变量
      • 多元logistic回归(软件:SPSS)

3.回归分析和相关性分析的区别

  回归分析和相关性分析的区别在于:回归分析研究的变量之间有明确的因果关系,即通过经验或者理论认为变量之间存在明确的前因后果,那么前因变量就是自变量(x),结果变量就是因变量(y),最后通过回归分析确定x和y之间的因果关系是否得到统计学支持,并且给出二者之间定量关系的具体数值。
  而相关性分析中,变量之间的地位是平等的,不存在先后顺序也不存在因果关系,仅仅只是单纯的关联关系。
后续笔者将继续进一步的考虑相关性与回归分析的数学推导,以及各类回归分析的案例与理论计算。

发布了10 篇原创文章 · 获赞 0 · 访问量 225

猜你喜欢

转载自blog.csdn.net/qq_41775769/article/details/105152439
今日推荐