贝叶斯观点看曲线拟合

曲线拟合问题的目标是 根据给定的数据集(x,y)预测未知数据x的y,其本身可以归结为最小化误差函数问题。以概率的观点考察曲线拟合,可以更加深刻地理解误差函数以及正则化。

我们看曲线拟合的最小二乘解  W = (X^{T}X)^{-1}X^{T}Y  。如果样本维数很高,或者样本数目不够多,那么X^{T}X是不可逆的,就会造成过拟合。一般来 说,为了减少过拟合,我们可以增加数据量,对数据进行降维,或者是使用正则化来对w进行约束。

使用正则化方法,则loss function 就会变成  L(w) + \lambda p(W)。 常用的正则化有两种,L1(lasso)或者L2(ridge,岭回归,权重衰减)。 以L2 为例,   L(W) = \left \| W^{T}X-Y \right \| ^{2}+ \lambda W^{T}W,展开后关于W求导,并令导数为0,则有:W = (X^{T}X+\lambda I)^{-1}X^{T}Y。相比原来的最小二乘解,正则化后(X^{T}X+\lambda I)^{-1}一定是可逆的,因为X^{T}X是一个半正定矩阵,再加上一个对角元素大于0的对角矩阵,故一定是正定阵。

从概率的观点看,LSE\leftrightarrow MLE  (噪声服从高斯分布)。此时有,Y|X,W \sim N(W^{T}X,\sigma ^{2})。从贝叶斯的角度看,给W 一个先验W\sim N(0, \sigma _{0}^{2} )   那么关于W的后验有p(W|Y) = P(Y|W)P(W)/p(Y)  则关于W的后验概率最大化,有W = argmax p(w|y) = argmaxP(y|w)p(w) = argmax log(P(y|w)p(w))  将先验分布和条件概率的表达式代入,简化后

argmin \left \|Y- WX \right \|^{2} + \sigma ^{2}/\sigma _{0}^{2}\left \| W \right \|^{2}。从贝叶斯的观点来看,最大后验概率(MAP, 噪声为高斯分布)和使用L2正则化的形式是一样。

猜你喜欢

转载自blog.csdn.net/xieshangxin/article/details/89183072