参考马春鹏 《模式识别与机器学习》翻译
本章讨论的是线性回归,从一个概率的观点,我们的任务是对
p(t∣x)进行建模,线性模型是后面要讨论更复杂模型的基础。
线性基函数模型
线性回归最基本的定义:
y(x,w)=w0+w1x1+…+wDxD(3.1)
由于线性函数的局限性(绝大部分模型都是非线性的),通过将上述公式中的
x换成
ϕ(x),通过把M个非线性(相对于x来说)模型进行组合
y(x,w)=w0+j=1∑M−1wjϕj(x)=j=0∑M−1wjϕj(x)=wTϕ(x)(3.2)
其中
ϕj(x)被称为基函数(basis function)。通过把下标j的最⼤值记作M−1,这个模型中的参数总数为M。
通过使⽤⾮线性基函数,我们能够让函数y(x, w)成为输⼊向量x的⼀个⾮线性函数。但是,形如(3.2)的函数被称为线性模型,因为这个函数是
w的线性函数。
常用的基函数有:
- 高斯基函数
ϕj(x)=exp{−2s2(x−μj)2}(3.3)
- sigmoid基函数
ϕj(x)=σ(sx−μj)(3.4)
σa=1+exp(−a)1(3.5)
本章中的⼤部分讨论都与基函数的选择⽆关,我们不会具体化基函数的特定形式,为了保持记号的简洁,我们把注意⼒集中于单⼀⽬标变量t的情形。
最大似然和最小平方
本小章节讨论最⼩平⽅的⽅法与最⼤似然⽅法的关系。
我们假设⽬标变量t由确定的函数y(x, w)给出,这个函数被附加了⾼斯噪声,
t=y(x,w)+ϵ(3.6)
其中ϵ是⼀个零均值的⾼斯随机变量,精度(⽅差的倒数)为β。因此我们有
p(t∣x,w,β)=N(t∣y(x,w),β−1)(3.7)
最小化平⽅损失函数等价于预测目标t的条件均值(第一章介绍),可以写作
E[t∣x]=∫tp(t∣x)dt=y(x,w)(3.8)
对于输入
X={x1,…,xN},对应的目标值
t={t1,…,tN}T,假设这些数据点是独⽴地从分布(3.7)中抽取的。似然函数的表达式如下,其中参数w和β是可以调节的,形式为
p(t∣X,w,β)=n=1∏NN(tn∣wTϕ(xn),β−1)(3.9)
为了保持记号的简洁性,我们在诸如p(i | x, w, β)这类的表达式中不显式地写出x。取对数似然函数的对数:
lnp(t∣w,β)=n=1∑NlnN(tn∣wTϕ(xn),β−1)=2Nlnβ−2Nln(2π)−βED(w)(3.10)
其中平⽅和误差函数的定义为:
ED(w)=21n=1∑N{tn−wTϕ(xn)}2(3.11)
使⽤最⼤似然的⽅法确定w和β,首先似然函数对于w的梯度为
∇lnp(t∣w,β)=βn=1∑N{tn−wTϕ(xn)}ϕ(xn)T(3.12)
令这个梯度等于零
0=n=1∑Ntnϕ(xn)T−wT(n=1∑Nϕ(xn)ϕ(xn)T)(3.13)
所以
wML=(ΦTΦ)−1ΦTt(3.14)
这⾥Φ是⼀个N × M的矩阵,被称为设计矩阵(design matrix)
Φ=⎝⎜⎜⎜⎛ϕ0(x1)ϕ0(x2)⋮ϕ0(xN)ϕ1(x1)ϕ1(x2)⋮ϕ1(xN)⋯⋯⋱⋯ϕM−1(x1)ϕM−1(x2)⋮ϕM−1(xN)⎠⎟⎟⎟⎞(3.15)
通过最大化似然函数,可求出对
β
βML1=N1n=1∑N{tn−wMLTϕ(xn)}2( 3.16)
可以看出精度的倒数为⽬标值在回归函数周围的残留⽅差。
现在,我们可以更加深刻地认识偏置参数w0。如果我们显式地写出偏置参数,那么误差函数改写为
ED(w)=21n=1∑N{tn−w0−j=1∑M−1wjϕj(xn)}2(3.17)
对
w0求导并令其导数为0,则求出
w0为:
w0=t−j=1∑M−1wjϕj(3.18)
其中
t=N1n=1∑Ntn,ϕj=N1n=1∑Nϕj(xn)(3.19)
可以看出偏置等于目标值的均值和预测值的均值的差。
最⼩平⽅的⼏何描述
对于输入
X={x1,…,xN},对应的目标值
t={t1,…,tN}T,考虑N维空间的n个坐标轴以此对应
tn,因此
t=(t1,…,tN)T为此空间的一个向量,这N个
x对应的第j个基向量
ϕj({x1,…,xN})也是N维向量,如果基函数数量M小于数据量N,那么M个向量
ϕj将会张成⼀个M维的⼦空间
S,我们定义
y是⼀个N维向量,它的第n个元素为
y(xn,w),其中n = 1,…,N。由于
y是M个向量
ϕj的任意线性组合,因此它可以位于M维⼦空间的任何位置。
平⽅和误差函数(3.11)就等于
y和
t之间的平⽅欧⽒距离,为了是两个点的向量的距离最短,因此,w的最⼩平⽅解为使位于⼦空间
S(M维)的
y距离
t最近。
如下图所示,举个例子,假设
t=(1,1,0) 是一个3维向量,而
ϕ1=(1,0,0),ϕ2=(0,1,0)实际上这两个向量张成的是2维空间(在平面中),从t出发做投影到空间
S,此时的投影便是
y,因为此时
y到t的距离最短嘛。
对于在之前得到的
wML
wML=(ΦTΦ)−1ΦTt(3.14)
而
y=ϕwML可以推导一下这个式子正是t在空间
S的投影
顺序学习
一次处理所有数据计算量相当大,现在为了减少一次计算成本来每次计算一个数据点,这称为顺序学习。对于顺序学习可以通过随机梯度下降(stochastic gradient descent)进行迭代。对于误差和
E=∑nEn,当计算到第n个数据点时,对参数做一下更新
w(τ+1)=w(τ)−η∇En(3.20)
对于之前个平方和误差的情况
w(τ+1)=w(τ)+η(tn−w(τ)Tϕn)ϕn(3.21)
正则化最⼩平⽅
为了防止模型过拟合,在误差函数中增加正则项
ED(w)+λEW(w),其中EW(w)=21wTw(3.22)
如果误差函数为式3.11,则总误差为
21n=1∑N{tn−wTϕ(xn)}2+2λwTw(3.23)
正则项更为一般的情况
21n=1∑N{tn−wTΦ(xn)}2+2λj=1∑M∣wj∣q
q = 1的情形被称为套索(lasso)(Tibshirani, 1996)。它的性质为:如果λ充分⼤,那么某些系数
wj会变为零,从⽽产⽣了⼀个稀疏(sparse)模型,如下图
关于稀疏的解析,详细可以见知乎:https://zhuanlan.zhihu.com/p/50142573
多个输出
对于一个目标变量有个多个输出时,更常⽤的⽅法是对⽬标向量的所有分量使⽤⼀组相同的基函数来建模。
y(x,w)=WTϕ(x)(3.24)
其中y是⼀个K维列向量,W是⼀个M × K的参数矩阵,
ϕ(x)是⼀个M为列向量。
用最大似然函数求解得到
WML=(ΦTΦ)−1ΦTT(3.25)
对于t的每一个值
tk有
wk=(ΦTΦ)−1ΦTtk=Φ†tk(3.26)
偏置-⽅差分解
对于之前我们讨论的线性模型,我们假定了基函数的形式和数量都是固定的,会有以下问题
- 使⽤最⼤似然⽅法或者说使⽤最⼩平⽅⽅法,会导致严重的过拟合问题。
- 通过限制基函数的数量来避免过拟合问题有⼀个负作⽤,会影响模型描述数据的能力。
- 引⼊正则化项,如何确定正则化系数λ的合适的值。
本章中,我们会稍微深⼊地从贝叶斯观点讨论模型的复杂度。但是,在进⾏这样的讨论之前,从频率学家的观点考虑⼀下模型的复杂度问题。这种频率学家的观点被称为偏置-⽅差折中(bias-variance trade-off)。
在第一章证明了平⽅损失函数的期望为
E[L]=∫{y(x)−h(x)}2p(x)dx+∬{h(x)−t}2p(x,t)dxdt(3.27)
第二项为数据噪声(数据集中的数据和事实情况不符合),第一项表示我们要找到一个y(x)使其最小,最好为零,然而这是不可能的(因为没有无线多的数据和计算能力),只能尽可能的小。
对于上式第一项,对于一个特定的数据集
D
y(x;D)−h(x)2(3.28)
由于这个量与特定的数据集D相关,因此我们对所有的数据集取平均。对一个单独的输入x
{y(x;D)−ED[y(x;D)]+ED[y(x;D)]−h(x)}2={y(x;D)−ED[y(x;D)]}2+{ED[y(x;D)]−h(x)}2+2{y(x;D)−ED[y(x;D)]}{ED[y(x;D)]−h(x)}(3.29)
因为上式为一个数据点的值,现在对其关于
D求期望
ED[{y(x;D)−h(x)}2]=
{ED[y(x;D)]−h(x)}2(偏置)2+
ED[{y(x;D)−ED[y(x,D)]}2]方差(3.30)
上式第⼀项,被称为平⽅偏置(bias),表⽰所有数据集的平均预测与预期的回归函数之间的差异。第⼆项,被称为⽅差(variance),度量了对于单独的数据集,模型所给出的解在平均值附近波动的情况,因此也就度量了函数y(x; D)对于特定的数据集的选择的敏感程度。
上述是单独的x的情况,对一个所有输入x有
期望损失=偏置2+⽅差+噪声(3.31)
偏置2={ED[y(x;D)]−h(x)}2p(x)dx(3.32)
方差=∫ED[{y(x;D)−ED[y(x;D)]}2]p(x)dx(3.33)
噪声=∬{h(x)−t}2p(x,t)dxdt(3.34)
从上面得到,最小化期望损失,可以分解成偏置、方差和噪声。有着最优预测能⼒的模型时在偏置和⽅差之间取得平衡。那么选取
λ对偏置和方差有什么影响呢
- 当
λ大的时候,模型可能就会欠拟合,我们得到的函数就会和预期的函数相差很大,就会导致偏置很大
- 当
λ小的时候模型可能就会过拟合,我们得到的函数就会和预期的函数过于接近,就会导致偏置很小
虽然偏置-⽅差分解能够从频率学家的⾓度对模型的复杂度提供⼀些有趣的认识,但是它的实⽤价值很有限。这是因为偏置-⽅差分解依赖于对所有的数据集求平均,⽽在实际应⽤中我们只有⼀个观测数据集。
贝叶斯线性回归
参数分布
首先引入
w的先验概率分布(假设精度β 已知),有公式3.9 似然函数
p(t∣w),其对应的共轭先验为高斯分布(所谓共轭先验就是,能够引入一个先验乘以似然函数之后得到的后验能和先验有着同样的形式,共轭先验具体见参考维基百科https://en.wikipedia.org/wiki/Conjugate_prior#Example)
p(w)=N(w∣m0,S0)(3.35)
通过第二章的推导,后验分布为
p(w∣t)=N(w∣mN,SN)(3.36)
其中
mN=SN(S0−1m0+βΦTt)SN−1=S0−1+βΦTΦ(3.37)
因此
wMAP=mN(后验均值),如果假设先验
p(w)的方差趋近无穷大(高斯函数越平缓),也就是刚开始
w为任何值得概率都是一样的,则
mN=wML,如果N=0,那么后验就等于了先验(此时没有任何数据信息)。这就可以理解为,任何一个阶段的后验即是下一阶段的先验。
预测分布
在实际应⽤中,我们通常感兴趣的不是w本⾝的值,⽽是对于新的x值预测出t的值。这需要我们计算出预测分布(predictive distribution),定义为
p(t∣t,α,β)=∫p(t∣w,β)p(w∣t,α,β)dw(3.38)
转化为
p(t∣x,t,α,β)=N(t∣mNTϕ(x),σN2(x))(3.39)
σN2(x)=β1+ϕ(x)TSNϕ(x)(3.40)
公式3.40第⼀项表⽰数据中的噪声,⽽第⼆项反映了预测分布与参数w关联的不确定性。由于噪声和w的分布是相互独⽴的⾼斯分布,因此它们的值是可以相加的。当额外的数据点被观测到的时候,后验概率分布会变窄。从⽽可以证明出
σN+12(x)≤σN2(x)
等价核
把公式3.37的带入y(x, w),
mN为w后验均值, 则预测均值为
y(x,mN)=mNTϕ(x)=βϕ(x)TSNΦTt=m=1∑Nβϕ(x)TSNϕ(xn)tn(3.41)
则
y(x,mN)=n=1∑Nk(x,xn)tn(3.42)
k(x,x′)=βϕ(x)TSNϕ(x′)(3.43)
式3.43被称为平滑矩阵或等价核,等价核表示的是对于新x和与训练数据集中的所有x的距离,预测值y则是这些距离和其对应的t的加权平均。
贝叶斯模型的比较
模型⽐较的贝叶斯观点仅仅涉及到使⽤概率来表⽰模型选择的不确定性,假设我们想⽐较L个模型
Mi,其中
i=1,...,L。我们会假设数据是由这些模型中的⼀个⽣成的,但是我们不知道究竟是哪⼀个。我们的不确定性通过先验概率分布p(Mi)表⽰。给定⼀个训练数据集D,我们想估计后验分布
p(Mi∣D)∝p(Mi)p(D∣Mi)(3.44)
先验分布让我们能够表达不同模型之间的优先级。假设所有模型概率都相同,模型证据(model evidence)
p(D∣Mi),它表达了数据展现出的不同模型的优先级,也被称为边缘似然(marginal likelihood)
⼀旦我们知道了模型上的后验概率分布,那么根据概率的加和规则与乘积规则,预测分布为
p(t∣x,D)=i=1∑Lp(t∣x,Mi,D)p(Mi∣D)(3.45)
对于⼀个由参数w控制的模型,根据概率的加和规则和乘积规则,模型证据为
p(D∣Mi)=∫p(D∣w,Mi)p(w∣Mi)dw(3.46)
模型证据恰好就是在估计参数的后验分布时出现在贝叶斯定理的分母中的归⼀化项,因为
p(w∣D,Mi)=p(D∣Mi)p(D∣w,Mi)p(w∣Mi)(3.47)
⾸先考虑模型有⼀个参数w的情形。这个参数的后验概率正⽐于p(D | w)p(w),其中为了简化记号,我们省略了它对于模型Mi的依赖。如果我们假设后验分布在最⼤似然值wMAP附近是⼀个尖峰,宽度为∆w后验,那么我们可以⽤被积函数的值乘以尖峰的宽度来近似这个积分。如下图
p(D)=∫p(D∣w)p(w)dw≃p(D∣wMAP)Δw prior Δw posterior (3.48)
取对数可得
lnp(D)≃lnp(D∣wMAP)+ln(ΔwpriorΔwposterior)(3.49)
第⼀项表⽰拟合由最可能参数对应的模型给出的数据。第⼆项⽤于根据模型的复杂度来惩罚模型。后验的宽度越小,表示模型拟合越精确,则惩罚越厉害
证据近似
在处理线性基函数模型的纯粹的贝叶斯⽅法中,我们会引⼊超参数α和β的先验分布,然后通过对超参数以及参数w求积分的⽅式做预测。但是,虽然我们可以解析地求出对w的积分或者求出对超参数的积分,但是对所有这些变量完整地求积分是没有解析解的。
这⾥我们讨论⼀种近似⽅法。这种⽅法中,我们⾸先对参数w求积分,得到边缘似然函数(marginal likelihoodfunction),然后通过最⼤化边缘似然函数,确定超参数的值。这种⽅法也被称为证据近似。
如果我们引⼊α和β上的超先验分布,那么预测分布可以通过对w, α和β求积分的⽅法得到
p(t∣t)=∭p(t∣w,β)p(w∣t,α,β)p(α,β∣t)dwdαdβ(3.50)
如果后验分布
p(α,β∣i)在
α
和
β
附近有尖峰,那么预测分布可以通过对积分的⽅式简单地得到,其中α和β被固定为
α
和
β
p(t∣t)≃p(t∣t,α
,β
)=∫p(t∣w,β
)p(w∣t,α
,β
)dw(3.51)
接下来就要求出
α
和
β
,α和β的后验分布为
p(α,β∣t)∝p(t∣α,β)p(α,β)(3.52)
α
和
β
可以通过最⼤化边缘似然函数p(i | α, β)来获得。我们接下来会计算线性基函数模型的边缘似然函数,然后找到它的最⼤值。这将使我们能够从训练数据本⾝确定这些超参数的值,⽽不需要交叉验证。
计算证据函数
边缘似然函数p(i | α, β)是通过对权值参数w进⾏积分得到的
p(t∣α,β)=∫p(t∣w,β)p(w∣α)dw(3.53)
根据公式(3.10)、公式(3.11)和w的分布
lnp(t∣w,β)=n=1∑NlnN(tn∣wTϕ(xn),β−1)=2Nlnβ−2Nln(2π)−βED(w)(3.10)
ED(w)=21n=1∑N{tn−wTϕ(xn)}2(3.11)
p(w∣α)=N(w∣0,α−1I)
我们可以把证据函数写成下⾯的形式
p(t∣α,β)=(2πβ)2N(2πα)2M∫exp{−E(w)}dw(3.54)
E(w)=βED(w)+αEW(w)=2β∥t−Φw∥2+2αwTw(3.55)
公式(3.55)等于正则化的平⽅和误差函数。我们现在对w配平⽅,可得
E(w)=E(mN)+21(w−mN)TA(w−mN)(3.56)
A=αI+βΦTΦ(3.57)
E(mN)=2β∥t−ΦmN∥2+2βmNTmN(3.58)
对w进行求积分
∫exp{−E(w)}dw=exp{−E(mN)}∫exp{−21(w−mN)TA(w−mN)}dw=exp{−E(mN)}(2π)2M∣A∣−21(3.59)
我们可以把边缘似然函数的对数写成下⾯的形式
lnp(t∣α,β)=2Mlnα+2Nlnβ−E(mN)−21ln∣A∣−2Nln(2π)(3.60)
最⼤化证据函数
考虑p(i | α, β)关于α的最⼤化,⾸先定义下⾯的特征向量⽅程
(βΦTΦ)ui=λiui(3.61)
可知A的特征值为α + λi。考虑公式(3.60)中涉及到ln |A|的项关
于α的导数
dαdln∣A∣=dαdlni∏(λi+α)=dαdi∑ln(λi+α)=i∑λi+α1(3.62)
求驻点得到
α=mNTmNγ(3.63)
γ=i∑α+λiλi(3.64)
开始随机选择一个w值,之后根据3.63公式不断迭代进行收敛。我们可以类似地关于β最⼤化对数边缘似然函数(3.60)
β1=N−γ1n=1∑N{tn−mNTϕ(xn)}2(3.65)
参数的有效数量
公式3.63的值
α通过
p(w∣α)=N(w∣0,α−1I)来控制这w的分布。
由于
βΦTΦ是⼀个正定矩阵,因此它的特征值为正数,从⽽⽐值
λi/(λi+α)位于0和1之间,结果,由公式(3.91)定义的γ的取值范围为
0≤γ≤M。
- 对于λi ≫ α的⽅向,对应的参数
wi将会与最⼤似然值接近,且
⽐值
λi/(λi+α)接近1。这样的参数被称为良好确定的,因为它们的值被数据紧紧地限制着。
2.相反,对于λi ≪ α的⽅向,对应的参数wi将会接近0,⽐值
λi/(λi+α)也会接近0。这些⽅向上,似然函数对于参数的值相对不敏感,因此参数被先验概率设置为较⼩的值。公式(3.64)定义的γ因此度量了良好确定的参数的有效总数。
固定基函数的局限性
在本章中,我们已经关注了由固定的⾮线性基函数的线性组合组成的模型。不幸的是,线性模型有⼀些重要的局限性,这使得我们在后续的章节中要转⽽关注更加复杂的模型,例如⽀持向量机和神经⽹络。
困难的产⽣主要是因为我们假设了基函数在观测到任何数据之前就被固定了下来,⽽这正是1.4节讨论的维度灾难问题的⼀个表现形式。结果,基函数的数量随着输⼊空间的维度D迅速增长,通常是指数⽅式的增长。