【Machine Learning】初识回归分析

说在前面

学习计算机器学习,回归分析当然是离不开的。它是机器学习中的一个重要的模块,具体回归分析是个什么鬼?用来干啥的?这是本文的主要研究点。博主也是菜鸟级别,所以我们一点一点啃吧。

一、回归分析分类

回归分析主要分为:多远回归、线性回归、多重线性回归,当然还要非线性回归等。在这里我们主要了解前三种。

1.1 what is regression analysis

        回归分析(regression analysis)是确定两种或两种以上变量相互依赖的定量关系的一种方法,是机器学习中重要的一个模块,在sklearn机器学习库中有广泛的算法实现,如OLS,脊回归等。
在具体一点如下:
客观现象之间总是普遍联系与相互依存,反映这些联系的数量关系可分为两类,一类是确定性关系,另一类是不确定关系。
        对于确定性关系,可用函数来描述它们,例如出租车费用与行驶里程之间的关系。此情形下,当行驶里程的值确定了,相应的出租车费用也就确定了。
        对于不确定性关系,若一个变量或几个变量的值确定了,相应的另一个变量不能完全确定,而是在一定范围内变化,无法用准确的函数来描述。例如,人的身高与体重之间的关系。
对于不确定性关系的变量,当我们认识了它们内部的关联关系和变化规律后,不确定性关系有可能转化成确定性关系。
        回归分析便是研究不确定性关系的一种常用的统计方法。回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。当然,回归分析是建模和分析数据的重要工具。

1.2 多元回归

       回归分析按照涉及的变量,即机器学习中特征的个数,分为一元回归和多元回归分析,如果预测的特征仅有一个,则为一元回归,否则为多元回归

1.3 线性回归

讲线性回归之前,我们先看一下线性回归在机器学习中的位置,如下图所示:
在这里插入图片描述
       如果自变量和因变量之间是线性关系,则为线性回归分析,否则为非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。不要小看一元线性回归分析,一个问题解决的开始往往都是从一元线性回归。
例子如下所示:
我们接下来要预测房屋的价值,其中考虑的特征包括房屋的面积,和房屋的已使用年限。如下图所示的4条样本:

房屋面积 使用年限 房屋价格
85.17 5 68
120 12 130
102 4 104
59 3 46

现在,一个房屋面积为78,使用年限为4年的房屋,根据上表提示的数据预测下这个房屋的价值,这是我们的目标。
更详细的可参考此篇博文:【机器学习】回归分析之线性回归
更详细的源码实现:手写算法系列-线性回归

1.4 多重线性回归

       如果回归分析中包括两个或两个以上的自变量且自变量之间存在线性相关性,此时称为多重线性回归分析

1.5 小结

        线性回归通常是人们在学习预测模型时首选的技术之一。线性回归的入手一般会根据最小二乘法(OLS),但是如果结果不好的话,要考虑多变量之间是否存在多重线性相关性。

二、回归分析的用处

举一个例子:在当前的经济条件下,我们分析、估计一下股票最近的涨跌。根据已有最新的数据,使用回归分析,我们就可以根据当前和过去的信息来预测未来股票的涨跌情况。
用回归分析的好处良多。具体如下:

  1. 它表明自变量和因变量之间的显著关系;
  2. 它表明多个自变量对一个因变量的影响强度。

回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。

前期相关文章
1、初识机器学习
2、机器学习之一些数学相关的知识储备
3、二分法/牛顿迭代求零点

发布了213 篇原创文章 · 获赞 303 · 访问量 49万+

猜你喜欢

转载自blog.csdn.net/Jiajikang_jjk/article/details/99720086