回归系列(二)| 最小二乘法真有那么复杂吗?

作者:丁点helper

来源: 丁点帮你

上一篇文章给大家留了一个思考题,问在假设检验时下面哪种写法是正确的:

大家都答对了吗?正确答案是“A”。

样本与总体回归系数的区分

这一点内容看似很简单,但其实经常有同学犯糊涂,所以,还是值得专门说一下。

回归系数的计算

借用我们讲相关分析时的例子:探讨粮食中某种毒素(DON)对骨关节炎评分(OAP)的影响,数据如下:

无论是做回归还是相关分析,我们拿到数据的第一步应该是先画一个散点图:以因变量Y为纵轴,以自变量X为横轴(如果有多个自变量,则让Y逐一与X画散点图)。

本例我们研究的是DON对OAP的影响,所以以OAP为Y,以DON为X,散点图如下:

如上图,两变量之间正向的线性关系还是很明显的,随着DON的提升,OAP也有上升的趋势,所以推测,粮食中DON毒素可能会导致患者关节炎的发生。

回归方程在几何上是一条直线,所以问题归结于怎么样找到一条这样的直线。

因为我们希望回归直线尽可能最优,所以就需要做出的直线离各散点的综合距离最小。

如下图中的u1、u2,代表了散点与回归直线的距离。

如下图,我们根据肉眼观察,对关节炎的数据画出来两条线:蓝线和红线,问题是到底选择哪一条线呢?

肉眼观察肯定不靠谱,只能通过数学计算来比较判断,如何判断呢?本质上这是一个求最小值的问题。

上面说过了,我们希望得到的直线离所有散点的综合距离最小,怎么把这句话转变成数学计算呢?

所谓的“综合距离”最小,用数学的语言来表达就是让下面这个式子取最小值

综合起来可以写成:

别被复杂的式子唬住,其实这里只需要初中或高中的数学就能解决。耐心的小伙伴可以尝试展开一下,其实就是一个二次函数。

求解出来的结果是:

以上这个过程就是大家总能听到的“最小二乘法”。

回到我们关节炎的例子,最后得出其回归方程为:

猜你喜欢

转载自blog.csdn.net/yoggieCDA/article/details/108317513