最小均方算法,即Least-Mean-Square,LMS。其提出受到感知机的启发,用的跟感知机一样的线性组合器。
无约束最优化问题
LMS算法的目标就是找到一组权值向量,使其输出响应跟期望响应最接近。
设立一个代价函数
找到一个最优的权值向量
这是一个无约束最优化问题。其解决的一个必要条件就是
也就是:
一般的解决方法是从一个初始权值向量
最速下降法
也就是反向传播算法梯度下降的基本原理,在每一个位置
梯度即为代价函数对权值向量的每一个元素求偏导:
权值向量的修正为:
理论上来说学习率参数
定义代价函数:
那么就有:
其中
N为样本数量。
牛顿法
最速下降法也可以理解为是拿一个平面去拟合点附近的曲面,而牛顿法则是复杂一些,拿一个二阶的曲面去拟合点附近的曲面。
具体来说就是拿代价函数在权值向量
其中
说白了就是对不同组合的权值求两次偏导。
接着就是要最大化
解得
也就是
牛顿法的主要问题就是计算复杂度,以及其要求Hessian矩阵
对于代价函数是这样的情况:
拿代价函数对权值求两次偏导,可以算得Hessian矩阵
其中N为样本数量,s表示第s个样本。
因而Hessian就为:
其中
高斯-牛顿法
为了降低牛顿法的计算量同时保证收敛能力又提出了高斯-牛顿法。其优势就是不需要搞两次偏导。
依然是用这个误差平方和一半的代价函数:
不过这次就不先拿代价函数,而是拿误差信号
这回i表示第i个样本,而n表示第n次迭代。
把所有样本的
其中
说白了就是每个样本的误差信号分别对每个权值求偏导。
那么误差信号就是:
矩阵形式的完全平方公式。两根竖线
现在需要找到一个权值向量使上式最小作为
解出
这就是高斯-牛顿法的基本型。
自然这里还有要求
维纳滤波器
然后接着推导。在这里误差信号为
于是有
从而Jacobi矩阵为:
另外可知有
将这些带入到高斯-牛顿法的基本型中可得:
整理之后你会发现
简直可以一开始就一次计算啊。也难怪前边用牛顿法可以一次就收敛。
然后定义
这就像是《神机》第二章所讲的一次性计算分界的线性最小二乘分类器,所以这也叫 线性最小二乘滤波器。
当样本数量N趋于无穷时,就成了维纳滤波器。
最小均方算法
反正《神机》是过了前面的大堆篇幅之后才开始讲回这章的主题…
其实所谓最小均方算法就是拿均方误差作为代价函数,并使之最小的算法,权值调整方法也是跟最速下降法一致。
只不过不同的是,前面的几个方法都是计算汇总了所有样本的误差再调整,而这里是逐个样本逐个计算误差逐个调整。每一个样本称为一个瞬像。
因为每个样本不同,每次权值调整的方向也不同而近似于随机,但是总体来说都是朝着最优的方向调整的。于是LMS算法也被称为随机梯度算法。
因此代价函数就成了:
称为代价函数的瞬时值。
求偏导后即可得:
于是权值调整方式就是这样:
我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面...
对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:
(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。
(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。这种方法对异常值非常敏感。
最常用的是普通最小二乘法( Ordinary Least Square,OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。(Q为残差平方和)- 即采用平方损失函数。
样本回归模型:
其中ei为样本(Xi, Yi)的误差
平方损失函数:
则通过Q最小确定这条直线,即确定,以为变量,把它们看作是Q的函数,就变成了一个求极值的问题,可以通过求导数得到。求Q对两个待估参数的偏导数:
根据数学知识我们知道,函数的极值点为偏导为0的点。
解得:
这就是最小二乘法的解法,就是求得平方损失函数的极值点。
最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值,那它们有什么区别呢。
相同
1.本质相同:两种方法都是在给定已知数据(independent & dependent variables)的前提下对dependent variables算出出一个一般性的估值函数。然后对给定新数据的dependent variables进行估算。
2.目标相同:都是在已知数据的框架内,使得估算值与实际值的总平方差尽量更小(事实上未必一定要使用平方),估算值与实际值的总平方差的公式为:
其中为第i组数据的independent variable,为第i组数据的dependent variable,为系数向量。
不同
1.实现方法和结果不同:最小二乘法是直接对求导找出全局最小,是非迭代法。而梯度下降法是一种迭代法,先给定一个,然后向下降最快的方向调整,在若干次迭代之后找到局部最小。梯度下降法的缺点是到最小点的时候收敛速度变慢,并且对初始点的选择极为敏感,其改进大多是在这两方面下功夫。