leboop文章,禁止转载!
请阅读《机器学习之矩阵微积分及其性质》和《机器学习之线性回归公式推导》。首先我们还是使用如下的数据:
feature_1 | feature_2 | feature_n | value | ||
1 | ... | ||||
2 | ... | ||||
. . . |
. . . |
. . . |
. . . |
. . . |
|
m | ... |
假设现在和特征之间不再是简单的线性组合,除了线性关系外,还存在一种噪声,数学表述如下: ,其中服从期望为0,方差为的正态分布,即.
因为对于来说是常量,如果和之间相互独立,那么也是一个随机变量,且服从正态分布,又因为的期望和方差:
所以服从的是期望为,方差为的一个正态分布,即。
将次获得的数据代入,有。也就是说每一次获得的数据服从正态分布,那么肯定有人会问,那表格中的是什么?应该这样来理解:是一个服从正态分布的随机变量,而表中的只是一次观察值,而该次观测值为的概率
(正态分布密度函数:)
按照《机器学习之线性回归公式推导》一文中符号约定:
记个数据矩阵:
,
真实值:
,
预测值:
,
系数:
,
考虑到之间是相互独立的,所以m个观测值取值为的概率为
.
注意到是关于和的函数。直觉告诉我们,使取最大值的和应该是我们需要的,从概率统计角度来说,满足取最大值的和会使我们的观测数据等于的概率最大,获得像表格这样的数据具有更大的可能性。所以优化问题变为:
现在我们就来求解这个优化问题。
,
两边取对数,有
所以优化问题等价于,根据《机器学习之线性回归公式推导》,我们得到的估计值为
这个结果与我们未引入噪声项是一样的,但是请注意,这里只是的一个估计值。实际上它是一个由随机变量组成的向量。因为
,限于CSDN无法用黑体表示向量,暂且记住是一个向量,
所以确实是一个随机变量,因为这里涉及到比较复杂的概率论知识,暂且不详细讨论。
优化只需要对求偏导,所以
可以求得的估计值
再次提醒:这里和都是随机变量,其中是由随机变量组成的随机向量。