回归分析 —— 线性回归

回归分析

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析

什么是回归?

回归(Regression)最早是英国生物统计学家高尔顿和他的学生皮尔逊在研究父母和子女的身高遗传特性时提出的。1855年,他们在《遗传的身高向平均数方向的回归》中这样描述“子女的身高趋向于高于父母的身高的平均值,但一般不会超过父母的身高”,首次提出来回归的概念。现在的回归分析已经和这种趋势效应没有任何瓜葛了,它只是指源于高尔顿工作,用一个或多个自变量来预测因变量的数学方法

如图是一个简单的回归模型,X 坐标是质量,Y 坐标是用户满意度,从图中可知,产品的质量越高其用户评价越好,这可以拟合一条直线来预测新产品的用户满意度

在回归模型中,我们需要预测的变量叫做因变量,比如产品质量;选取用来解释因变量变化的变量叫做自变量,比如用户满意度。回归的目的就是建立一个回归方程来预测目标值,整个回归的求解过程就是求这个回归方程的回归系数

简言之,回归最简单的定义就是:

给出一个点集,构造一个函数来拟合这个点集,并且尽可能的让该点集与拟合函数间的误差最小,如果这个函数曲线是一条直线,那就被称为线性回归,如果曲线是一条三次曲线,就被称为三次多项回归

在机器学习中,最常用的有六种回归方式:

  • 线性回归

  • 多项式回归

  • 岭回归(Ridge regression)

  • Lasso 回归

    扫描二维码关注公众号,回复: 14816049 查看本文章
  • 弹性回归网络

  • logistics 回归

本篇博客主要介绍线性回归

线性回归

简介

线性回归是指全部由线性变量组成的回归模型,例如:

单变量线性回归模型

\[y = a * x + b \]

多变量线性回归模型:

\[Y = a_1 * x_1 + a_2 * x_2 + …… + a_n * x_n + b \]

其中 a 为系数,x 是变量,b 为偏置。因为这个函数只有线性关系,所以只适用于建模线性可分数据。我们只是使用系数权重来加权每个特征变量的重要性。我们使用随机梯度下降(SGD)来确定这些权重 a 和偏置 b,过程如图所示:

线性回归的几个特点:

  • 建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快

  • 可以根据系数给出每个变量的理解和解释

  • 对异常值很敏感

怎么求?

这里我们给出了斯坦福大学机器学习公开课线性回归的例子,假设存在表1的数据集,它是某企业的成本和利润数据集。数据集中 2002 年到 2016 年的数据集称为训练集,整个训练集共 15 个样本数据。重点是成本和利润两个变量,成本是输入变量或一个特征,利润是输出变量或目标变量,整个回归模型如下图所示:

现建立模型,x 表示企业成本,y 表示企业利润,h(Hypothesis)表示将输入变量映射到输出变量 y 的函数,对应一个因变量的线性回归(单变量线性回归)公式如下:

\[h_{\theta}(x) = \theta_0 + \theta_1x \]

那么,现在要解决的问题是如何求解的两个参数和。我们的构想是选取的参数和使得函数尽可能接近 y 值,这里提出了求训练集(x,y)的平方误差函数(Squared Error Function)或最小二乘法

在回归方程里,最小化误差平方和方法是求特征对应回归系数的最佳方法。误差是指预测 y 值和真实 y 值之间的差值,使用误差的简单累加将使得正差值和负差值相互抵消,所采用的平方误差(最小二乘法)

\[\sum^m_{i = 1} (h_\theta(x_i) - y_i)^2 \]

选择适当的参数让其最小化 min,即可实现拟合求解过程。通过上面的这个示例,我们就可以对线性回归模型进行如下定义:根据样本 x 和 y 的坐标,去预估函数 h,寻求变量之间近似的函数关系:

\[h_{\theta}(x) = \theta_0 + \theta_1x_1 + …… + \theta_nx_n = \sum^n_{i = 0}(\theta_ix_i) \]

其中,n 表示特征数目,表示每个训练样本的第i个特种值,当只有一个因变量 x 时,称为一元线性回归,类似于;而当多个因变量时,成为多元线性回归。我们的目的是使最小化,从而最好的将样本数据集进行拟合,更好地预测新的数据

参考资料

机器学习中的几种回归方法总结

[Python从零到壹] 十二.机器学习之回归分析万字总结全网首发(线性回归、多项式回归、逻辑回归)

猜你喜欢

转载自blog.csdn.net/m0_59161987/article/details/129484194