线性回归数学推导

线性回归的目标是确定一条直线,让所有样本点到这一条直线的距离之和最小。通过这一句话我们就可以自然而然地根据样本点列出目标函数


现在我们有一组高维样本点 (X_{1},y_{1}),(X_{2},y_{2}),(X_{3},y_{3}),(X_{4},y_{4}),.......,(X_{n},y_{n}) (其中每一个x都是m维列向量)。

我们设目标直线方程为   y = \omega _{0}*1+\omega _{1}*x_{1}+\omega _{2}*x_{2}+\omega _{3}*x_{3}+.......\omega _{n}*x_{n}   (这个等式里面全是单个数字没有向量)

把这个方程写作向量的形式  y = W^{T}X(其中X是m+1维的列向量,W也是)

  D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2   (对于X_{i}是在每一个n维样本点的首位补充了一个1形成的m+1维的向量) 这个式子表示n个样本点到目标直线的距离之和。此处的方程就是线性回归的损失函数。 

接下来我们就要最小化损失函数来求取未知量 W   对于方程 D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2我们可以得知他存在一个全局最小值(具体证明请自行百度)

所以方程导数为0处必定是全局最小值处。 可以得到等式   \frac{\partial D}{\partial W} = 0       下面对方程进行变换 

D = \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^2 = (W^{T}X-Y)*(W^{T}X-Y)^{T} 

     (其中的X为(m+1)*n的矩阵。X = \begin{pmatrix} 1&1 & 1 & 1 & 1\\ x_{11}& x_{21}&x_{31} &... & x_{n1}\\ x_{12}& x_{22}& x_{32} & ... & x_{n2}\\ x_{13}& x_{23}& x_{33}& ... & x_{n3}\\ ...& ... & ... & ... & ...\\ x_{1m}& x_{2m} & x_{3m} & ...&x_{nm} \end{pmatrix}   每一列为一个样本。 Y = \begin{pmatrix} y_{1} & y_{2} &y_{3} & ... & y_{n} \end{pmatrix}  )  

D = (W^{T}X-Y)*(W^{T}X-Y)^{T}= (W^{T}X-Y)*(X^{T}W-Y^{T})       

= W^{T}XX^{T}W-{\color{Red} W^{T}XY^{T}}-YX^{T}W-YY^{T}

= W^{T}XX^{T}W-2YX^{T}W-YY^{T}           (因为W^{T}XY^{T} 是一个常数,所以 W^{T}XY^{T}(W^{T}XY^{T})^{T} = YX^{T}W)

\frac{\partial D}{\partial W} = 2XX^{T}W-2XY^{T}       (这里需要用到矩阵求导的知识,下面给出常用的公式)

由   \frac{\partial D}{\partial W} = 2XX^{T}W-2XY^{T}=0   得  XX^{T}W = XY^{T}        则  W = (XX^{T})^{-1}XY^{T}

但是这个等式成立的条件是  XX^{T}  必须可逆。即给定的样本集中不能出现重复数据,样本特征数量不能大于所给训练集样本个数。


利用最大似然估计推导出损失函数

首先给定一个先验假设,样本真实值与预测值的差值服从 N(0,\sigma^{2})  的正态分布   f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{x^{2}}{2\sigma ^{2}}}   

对于连续性随机变量,其在某一点处的概率可以表示为    p(x) = f(x)*dx  (f(x) 为随机变量的概率密度函数   dx代表x轴上的微分)

所以样本的联合概率为   P(x) = \prod_{i=1}^{n}f(x_{i})*dx_{i}= \prod_{i=1}^{n}f(x_{i})*\prod_{i=1}^{n}dx_{i}    

由于   \prod_{i=1}^{n}dx_{i}  近似常量,所以对于  P(x) 求极值没有影响。所以 可以写作   P(x) = \prod_{i=1}^{n}f(x_{i}) 

l(\theta ) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(W^{T}X_{i}-y_{i})^{2}}{2\sigma ^{2}}}

arg\, \underset{\theta }{max} \, l(\theta ) =arg\, \underset{\theta }{max}\, \: \: ln\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(W^{T}X_{i}-y_{i})^{2}}{2\sigma ^{2}}}

=arg\: \underset{\theta }{max}\: \sum_{i=1}^{n}(\frac{-(W^{T}X_{i}-y_{i})^{2}}{2\sigma^{2}}*ln\frac{1}{\sqrt{2\pi }\sigma })

=arg\: \underset{\theta }{max}\: \sum_{i=1}^{n}-(W^{T}X_{i}-y_{i})^{2}          (由于  ln\frac{1}{\sqrt{2\pi }\sigma }     和    2\sigma ^{2}    是常量所以在求  arg\, \underset{\theta }{max} \, l(\theta )  时无影响可以去掉 )

=arg\: \underset{\theta }{min}\: \sum_{i=1}^{n}(W^{T}X_{i}-y_{i})^{2}           (此时就得到了上述的损失函数)


猜你喜欢

转载自blog.csdn.net/qq_38120760/article/details/82081115