曲线拟合问题的目标是 根据给定的数据集(x,y)预测未知数据x的y,其本身可以归结为最小化误差函数问题。以概率的观点考察曲线拟合,可以更加深刻地理解误差函数以及正则化。
我们看曲线拟合的最小二乘解 。如果样本维数很高,或者样本数目不够多,那么是不可逆的,就会造成过拟合。一般来 说,为了减少过拟合,我们可以增加数据量,对数据进行降维,或者是使用正则化来对w进行约束。
使用正则化方法,则loss function 就会变成 。 常用的正则化有两种,L1(lasso)或者L2(ridge,岭回归,权重衰减)。 以L2 为例, ,展开后关于W求导,并令导数为0,则有:。相比原来的最小二乘解,正则化后一定是可逆的,因为是一个半正定矩阵,再加上一个对角元素大于0的对角矩阵,故一定是正定阵。
从概率的观点看, (噪声服从高斯分布)。此时有,。从贝叶斯的角度看,给W 一个先验 那么关于W的后验有 则关于W的后验概率最大化,有 将先验分布和条件概率的表达式代入,简化后
。从贝叶斯的观点来看,最大后验概率(MAP, 噪声为高斯分布)和使用L2正则化的形式是一样。