阿里云 05:机器学习算法详解 02 -- 一元与多元线性回归

1. 回归分析概述

  1. 变量之间的非严格函数关系
    在这里插入图片描述

1.1 回归的定义

在这里插入图片描述

1.2 线性与非线性

在这里插入图片描述
在这里插入图片描述

1.3 回归模型的一般形式

在这里插入图片描述
在建模时需要考虑扰动项,而在实际预测时,一般不考虑。

1.4 线性回归的几个基本假设

在这里插入图片描述


1.5 建立回归模型的流程

  1. 需求分析明确变量
    在这里插入图片描述
  2. 数据收集加工
    在这里插入图片描述
    面积和学校等缺失信息可能会引起偏差。
    在这里插入图片描述
  3. 确定回归模型
    在这里插入图片描述
    在这里插入图片描述
    取对数绘图得:
    在这里插入图片描述
  4. 模型参数估计
    在这里插入图片描述
    此处以最小二乘法为例分析,其他的方法会在后续的课程中介绍。如图所示,计算所有数据点的真实值(红点)与预测值(蓝线)之间的差取平方,再求和,使得误差的平方和最小,寻找数据的最佳函数匹配,即为最小二乘法。
  5. 模型检验优化
    在这里插入图片描述
  • 回归方程的显著性检验:即判断方程本身是否有意义。比如,全为随机因素造成的,则没有意义,需要重新建模。
  • 回归系数的显著性检验:即检验系数对应的自变量最最终的预测结果有没有影响,这个影响是否为随机因素造成的(比如收集样本时造成的误差)。如果是是随机因素造成的,并且对结果影响不显著,则可以去掉相应的变量,重新建模。
  • 拟合优度检验:满不满足方差最小,能否拟合数据点。
  • 异方差检验:即判断方差是否有规律的变化。如果有规律变化,则需要将其从模型中去除,重新建模;如果无规律变化,则为期望的结果。(比如满足不相关,零均值,同方差,正态分布等)
  • 多重共线性检验:变量之间是否有线性关系,比如 x 1 = 2 x 2 x_1=2x_2 ,则需要将其中一个变量从模型中去除,重新建模。
  1. 模型部署应用
    在这里插入图片描述

1.6 回归模型的特点

注意奥卡姆剃刀原理–“如无必要,勿增实体”,建立回归模型并非越复杂效果越好,要根据业务需求进行设计,同时要注意检查是否符合回归模型的基本假设,否则,可能导致模型表现不好。
在这里插入图片描述

总结

  1. 课程纲要
    在这里插入图片描述
  2. 学习目标
    在这里插入图片描述
    前提假设条件非常重要,不符合条件可能导致模型效果不好。

如何选择变量建模是需要考虑的重要问题。

  1. 思考与练习
    在这里插入图片描述

2.一元线性回归

2.1 一元线性回归模型

在这里插入图片描述
因为随机误差 ϵ \epsilon 无法度量,所以认为可以用理论回归模型的期望来表示一元线性回归方程。

回归方程从平均意义上表达了变量 y y x x 的统计规律性。比如拿尺子测量纸袋的长度,每次测量纸袋可能会引入误差,多次测量长度同一个纸袋的长度,最后取平均即,可从平均意义上表达两变量之间的统计规律。
在这里插入图片描述

2.2 参数估计:最小二乘估计(LSE)

离差平方和:即离开正确值(实际值)的差异。
在这里插入图片描述
在这里插入图片描述
求偏导使用链式法则,先不看求和符号 σ \sigma ,然后,将括号中的多项式看成一个整体求导,求完之后,再对多项式中的 β 0 ^ \hat{\beta_0} 求导,可得两个方程。对方程组联立求解推出参数 β 0 ^ \hat{\beta_0} β 1 ^ \hat{\beta_1} 的表达式。
在这里插入图片描述
这个地方可能会有疑惑,查看这篇博客得知,应用了求和的性质,下面是证明过程:
在这里插入图片描述
看个例子:
在这里插入图片描述

2.3 参数估计:最大似然估计(MLE)

如果该部分的相关知识之前没有学习过,关于推导过程可以暂时跳过,因为需要先修的概率论与数理统计知识。跳过本部分,不影响本课程以后的学习。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.4 有偏估计与无偏估计

无偏估计,比如等公交车,到站时间为16:00,一系列的预测为15:58,15:59,16:01,16:02…,求平均后大约等于16:00,与真实值的偏差为0,这种情况就是无偏估计。对模型选择来说,只看偏差无法评估模型的波动性,例如预测为14:00,18:00,15:00:,17:00,偏差为0,但波动范围太大,所以还要关注方差。

在这里插入图片描述
在这里插入图片描述

2.5 参数估计的性质

回归系数 h a t β 1 hat{\beta}_1 和回归常数 h a t β 0 hat{\beta}_0 的波动和什么相关?

  1. 样本数越多越好;
  2. 自变量取值范围的跨度越大越好
  3. 本身的随机误差,方差越小越好。

在这里插入图片描述


2.6 回归模型的显著性检验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
接收备择假设H1,即认为存在线性关系。

2.7 回归方程是否显著:F检验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
经过F检验,说明假设是有意义的,可以认为有线性关系。

2.8 相关系数显著性检验:t检验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.9 决定系数

在这里插入图片描述
Anscombe’s Quartet
在这里插入图片描述
在这里插入图片描述
由上可知,及时通过了一些检验也可能存在不理想的结果。

2.10 残差分析

2.10.1 残差

在这里插入图片描述

2.10.2 残差图

在这里插入图片描述
在这里插入图片描述

2.10.3 残差的性质

在这里插入图片描述

2.10.4 残差改进

在这里插入图片描述

2.11 模型应用

  1. 预测
    在这里插入图片描述
  2. 新值的区间预测
    在这里插入图片描述
  3. 新值的均值区间预测
    在这里插入图片描述
  4. 控制
    在这里插入图片描述
  5. 预测与控制的例子
    在这里插入图片描述

总结

  1. 课程纲要
    在这里插入图片描述

  2. 学习目标
    dlaXhpbl8zOTY1Mzk0OA==,size_6,color_FFFFFF,t_70)

  3. 思考与练习
    在这里插入图片描述


3. 多元线性回归

3.1 多元线性回归模型

在这里插入图片描述
由上式可得矩阵形式: y = X β + ϵ y = X \beta + \epsilon

3.2 参数估计:最小二乘估计

在这里插入图片描述

3.3 参数估计:最大似然估计

在这里插入图片描述

3.4 回归方程是否显著:F检验

在这里插入图片描述
在这里插入图片描述

3.5 回归系数是否显著:t检验

在这里插入图片描述

3.6 自变量的标准化

在这里插入图片描述
在这里插入图片描述

3.7 简单相关系数

最常用的为皮尔逊相关系数。
在这里插入图片描述

3.8 负相关系数与偏相关系数

在这里插入图片描述

多元线性回归案例:汽车油耗分析

在这里插入图片描述
数据集:
在这里插入图片描述

  1. 建模思路:
    在这里插入图片描述
  2. 建模
    在这里插入图片描述
  3. 模型评估
    在这里插入图片描述
  4. 模型检验:回归方程显著性
    在这里插入图片描述
  5. 模型检验:回归系数显著性
    在这里插入图片描述
    在这里插入图片描述

总结

  1. 课程纲要
    在这里插入图片描述
  2. 学习目标
    在这里插入图片描述
  3. 思考与练习
    在这里插入图片描述

课程链接:https://edu.aliyun.com/roadmap/ai?spm=5176.13944111.1409070.1.61cc28fcAV0KvR

发布了122 篇原创文章 · 获赞 94 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_39653948/article/details/105041601