PRML第三章3.1节笔记

3.回归的线性模型

3.1 线性及函数模型

回归问题的简单模型就是input的线性组合:

y(x,w) = w0 + w1x1 + w2x2 + wDxD

x = (x1,x2,x3···xD).T

上式被称为线性回归。此模型的关键在于参数w0,w1,····wD,其是一个线性函数。同时它也可以是输入变量Xi的线性函数,就给模型带来了局限性。
于是进行扩展,将输入变量的固定的非线性函数进行线性组合,形式为:

y(x,w) = w0 + ∑wjφj(x)

φj(x)被称为基函数。
参数w0使得数据中可以存在任意固定的偏置—偏置参数。定义一个虚”基函数”φ0(x)=1,于是上式变为:

y(x,w) = ∑wjφj(x) = w.T*φ(x)

在许多模式识别的实际应用中,要对原始的数据进行某种固定形式的预处理或者特征抽取。
通过使用非线性基函数,能够让函数y(w,x)称为输入向量x 的非线性函数。
对于基函数的选择,例如:
这里写图片描述
μj控制基函数在输入空间的位置,s控制基函数的空间大小,上式被称为高斯基函数。
sigmoid基函数:
这里写图片描述
这里写图片描述
还有其他的基函数,例如傅里叶基函数、小波基函数。
三种基函数的图像:
这里写图片描述

3.1.1最大似然与最小平方

假设目标变量t有函数y(x,w)给出,同时附加了高斯噪声:

t = y(x,w) + ε

ε是一个零均值的高斯随机分布,精度为(方差的倒数)为β:

p(t|x,w,β) = N(t|y(x,w),β^(-1))

根据上式得到条件均值:
这里写图片描述
现在输入输入集X ={x1,x2,…xN},所对应的目标值为{tN}={t1,t2,…tN},为一个列向量,记作t。得到下列似然函数:
这里写图片描述
对似然函数取对数,并使用高斯分布的标准条件,得到:
这里写图片描述
其中平方和误差函数为:
这里写图片描述
此时可以用最大似然方法求解w,β。首先计算w。对log(似然函数)求w的梯度:
这里写图片描述
在第一章中当在条件高斯分布噪声分布的情况下,线性模型的似然函数的最大化 == 平方和误差函数的最小化,就得到了上式。
令这个导数为零,求解w的值:
这里写图片描述
这被称为最小平方问题的规范矩阵。φ为N*M矩阵——设计矩阵。其中的元素是有输入向量通过基函数求得:
这里写图片描述
当求出w后,现在进行就算求得w0和β:
显式写出偏置参数:
这里写图片描述
对上式关于w0求导,并为零:
这里写图片描述
这里写图片描述
由此可以看出w0补偿了目标值的平均值(训练集)与基函数的值的平均值的加权求和之间的差。
同样的,求有关于β的梯度,并为零,求得β 的值为:
这里写图片描述

3.1.2 最小平方的几何描述

这里写图片描述
设计一个N维空间,坐标轴由tN给出,t={t1,t2,…,tN}.T是一个列向量。每个在N个数据点处估计的基函数Φj(xn)表示在空间中的向量,记作φj。φj对应于Φ的第j列,Φ(xn)对应于Φ的第i行。如果基函数的数量M小于数据点的数量N,则M个向量φj会扩展成一个M维的子空间S。定义y是一个N维向量,第n个元素为y(xn,w)。y是由φj任意线性组合,就决定了它的位置任意存在。则平方和误差函数==y与t之间的平方欧氏距离。w的最小平方解对应于子空间S的与t最近的y的选择。由图可知,w的解对应于t在S上的正交投影。
notice: y是由ΦWml给出。

3.1.3顺序学习

上面提到最大似然解的求解过程中涉及到一次处理整个数据集。当数据集相当大时,批量计算的计算量时很大的。顺序算法中,每次只考虑一个数据点,模型的参数在每次观测到一个数据后进行更新。
下面讲解顺序梯度下降。
如果误差函数由数据点的和组成E= ∑En,在观测到模式n后,随机梯度下降算法使用下式更新参数w:
这里写图片描述
τ为迭代次数,η为学习率。w被初始化某个起始方向w(0).对于平方和误差函数:
这里写图片描述
Φn=Φ(xn).被称为最小均方法。η需要仔细选择,确保收敛。

3.1.4正则化最小平方

通过添加正则项,抑制过拟合。则需要最小化的总的误差函数为
这里写图片描述
λ为正则化系数,控制数据相关的误差Ed(w)和正则化项Ew(w)的相对重要性。正则化项的一个简单的形式为权向量的各个元素的平方和:
这里写图片描述
则平方和误差函数变成为下式:
这里写图片描述
这种正则化项的选择方法被称为权值衰减。在顺序学习中,倾向于让权值向领的方向衰减。再介绍参数收缩,此方法中把参数的值向零的方向收缩。令上式关于w的梯度为零,求解出w:
这里写图片描述


通常使用一般的正则化项,此时误差函数形式为:
这里写图片描述
q=2的情况读英语二次正则化项。下图给出q不同值的轮廓线。
这里写图片描述

3.1.5多个输出

现在考虑K>1个目标变量。将这些目标聚集,记作t。对t的每个分量,引入一个不同的基函数集合,进而变成多个独立的回归问题。而常用的是对目标向量的所有分量使用一组相同的基函数建模:
这里写图片描述
y为一个k维列向量,W为M*K参数矩阵,Φ(x)是一个M维的列向量,每个元素为Φj(x),Φ0(x)=1。
添加条件:目标向量的条件概率分布是一个各向同性的高斯分布:
这里写图片描述
T={t1,t2,…tN}为N*K的矩阵,X={x1,x2,….xN},则对数似然函数为:
这里写图片描述
求解w,最大化对数似然函数:
这里写图片描述
如果考虑对每个目标变量tk,则wk则有:
这里写图片描述
tk是一个N维列向量,元素为tnk。

猜你喜欢

转载自blog.csdn.net/jeak2015/article/details/81950374