Linear regression by Bayesian and Frequentist

摘要:概率统计分频率学派(Frequentist)和贝叶斯学派(Bayesian),分别以极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯后验估计方法(Bayesian Posterior)为各自特色。贝叶斯方法分为统计推断(inference)和预测(predict)两个阶段。前者假设参数确定的通过极大化似然函数转化为一个函数优化问题,后者将待求参数视为随机变量,先假设参数来自某一概率分布,然后通过最大化待求参数的后验分布(MAP)转化为一个函数优化问题。

1.Notation

先规定一下符号以免混淆,Data:${\{x_i,y_i}\}^N_{i=1}$, $x_i\in{IR}^p$,$x_i^T=(x_{i1},x_{i2},...,x_{ip})$,$x_i$为列向量 $$X=(x_1,x_2,...,x_N)^T =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & \cdots & \cdots & x_{2p}\\ \vdots & \ddots\\ x_{N1} & \cdots & \cdots & x_{Np} \end{pmatrix}_{N\times p} $$ $$Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}$$ $$f(x)=w^Tx=x^Tw$$ $$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$$

2.Bayesian

贝叶斯视角将待求参数$w$看做随机变量,并且这个随机变量依赖于样本集的,先给一个w的先验分布(这个分布可能是错的,通过样本集来更新这个分布的参数,使得$w$的后验分布变得更加接近其真实的分布,这个过程类似于人类从现实世界学习来不断更新自己的认知经验,使得更加全面准确,是不是很类似?),贝叶斯方法包括推断和预测两个阶段,它的基本框架如下:

2.1 Inference

$$ P(w|Data)=P(w|X,Y)=\frac{P(w,Y|X)}{p(Y|X)} =\frac{P(w,Y|X)}{P(Y|X)} $$ $$ =\frac{P(Y|w,X)P(w)}{\int P(Y|w,X) P(w)\text{d}w}=\frac{likelihood*prior}{Normalization} $$

注意分母上Normalization是一个难以直接计算但是是常量的积分,换个视角看,后验分布也是一个概率分布,只要是概率分布那它的概率密度函数积分应该为1,而分母就起到了归一化的作用。而分子上详细推导:
P ( w , Y X ) = P ( Y w , X ) P ( w X ) = P ( Y w , X ) P ( w ) P(w,Y|X)=P(Y|w,X)*P(w|X)=P(Y|w,X)*P(w)
然后最大化参数的后验分布:

这里的似然就是一个特殊的概率,只不过换了个称谓,似然值(likelihood)的计算如下:
P ( Y w , X ) = i = 1 N P ( y i w , x i ) = i = 1 N N ( y i w T x i , σ 2 ) = 1 ( 2 π ) 1 / 2 σ 1 / 2 exp [ 1 2 σ 2 ( Y X w ) T ( Y X w ) ] P(Y|w,X)=\prod_{i=1}^NP(y_i|w,x_i)=\prod_{i=1}^NN(y_i|w^Tx_i,\sigma^2)=\frac{1}{{(2\pi)}^{1/2}{\sigma}^{1/2}}\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]

假设参数 w N ( 0 , Σ p ) w\backsim N(0,\Sigma_p) ,参数w的先验分布(prior)也可以表达为:

P ( w ) = N ( 0 , Σ p ) P(w)=N(0,\Sigma_p)
其中p为参数向量w的维度
整个后验分布就需要求分子部分,具体为:
P ( w X , Y ) exp [ 1 2 σ 2 ( Y X w ) T ( Y X w ) ] exp ( 1 2 w T Σ p 1 w ) P(w|X,Y)\to\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]*\exp(-\frac{1}{2}w^T \Sigma^{ -1}_{p}w)
然后极大化后验分布(类似于MLE中先取对数再对w求导)求得w的后验分布(这里没有详细推导,因为两个高斯分布的联合分布依旧为高斯分布,只需要配凑为高斯分布的形式即可),容易得到:
μ w = σ 2 A 1 X T Y \mu_w={\sigma}^{-2}A^{-1}X^TY
Σ w = A 1 \Sigma_w=A^{-1}
其中:
A 1 = σ 2 X T X + Σ p 1 A^{-1}={\sigma}^{-2}X^TX+\Sigma^{-1}_p
也可以记为:
w ( X , Y ) N ( σ 2 A 1 X T Y , A 1 ) w|(X,Y)\backsim N({\sigma}^{-2}A^{-1}X^TY,A^{-1})

2.2 Predict

统计推断完成后就可以进行预测,过程如下:给定新的数据$x^{new}$(列向量),要求$f(x^{new})$和$y^{new}$,我们知道$w$是随机变量,那么$f(x)$也是随机变量,那么根据: $$P(f(x^{new})|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new})$$ $$P(y^{new}|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new}+\sigma^2)$$ 也就是说贝叶斯线性回归不仅给出了预测值,还给出了它的概率分布

3. Frequentist

频率学派的视角与贝叶斯派不同,假设参数存在并且为定值,认为当前数据是独立同分布采样得到,获得样本$(x_i,y_i)$的概率$P(x_i,y_i)=P(y_i|x_i)*P(x_i)$,抽到每个样本都是等概率的,因此$P(x_i)$是一样的,那么所有样本的联合分布为: $$P(X,Y)=\prod_{i=1}^NP(y_i,x_i)=P(x_i)^N\prod_{i=1}^NP(y_i|x_i)$$ 频率派的动机就是这个概率是最大的我才能采样得到这个样本集,也就有了下面的极大似然估计。

3.1 MLE

值得注意的是$\theta$是固定的,但也是待求值,先定义关于待求参数$\theta$的似然函数(likelihood function): $$L(\theta)=\prod_{i=1}^NP(y_i|x_i)$$ 又因为$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$可以继续把似然函数写成表达式: $$L(\theta)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-w^Tx_i)^2}{2{\sigma}^2})$$ 对数似然函数: $$l(\theta)=logL(\theta)=Nlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2$$ 然后进行求导即可,这也与最小二乘法的损失函数形式几乎一致,有封闭解$w=(X^TX)^{-1}X^TY$。 不难看出,极大似然估计(或者最小二乘法)得到的就是关于参数$w$的单点估计(最可能出现的值),对应于贝叶斯的最大化后验估计的数学期望。

猜你喜欢

转载自blog.csdn.net/To_be_to_thought/article/details/86694445