摘要:概率统计分频率学派(Frequentist)和贝叶斯学派(Bayesian),分别以极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯后验估计方法(Bayesian Posterior)为各自特色。贝叶斯方法分为统计推断(inference)和预测(predict)两个阶段。前者假设参数确定的通过极大化似然函数转化为一个函数优化问题,后者将待求参数视为随机变量,先假设参数来自某一概率分布,然后通过最大化待求参数的后验分布(MAP)转化为一个函数优化问题。
1.Notation
先规定一下符号以免混淆,Data:${\{x_i,y_i}\}^N_{i=1}$, $x_i\in{IR}^p$,$x_i^T=(x_{i1},x_{i2},...,x_{ip})$,$x_i$为列向量 $$X=(x_1,x_2,...,x_N)^T =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & \cdots & \cdots & x_{2p}\\ \vdots & \ddots\\ x_{N1} & \cdots & \cdots & x_{Np} \end{pmatrix}_{N\times p} $$ $$Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}$$ $$f(x)=w^Tx=x^Tw$$ $$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$$
2.Bayesian
贝叶斯视角将待求参数$w$看做随机变量,并且这个随机变量依赖于样本集的,先给一个w的先验分布(这个分布可能是错的,通过样本集来更新这个分布的参数,使得$w$的后验分布变得更加接近其真实的分布,这个过程类似于人类从现实世界学习来不断更新自己的认知经验,使得更加全面准确,是不是很类似?),贝叶斯方法包括推断和预测两个阶段,它的基本框架如下:
2.1 Inference
$$ P(w|Data)=P(w|X,Y)=\frac{P(w,Y|X)}{p(Y|X)} =\frac{P(w,Y|X)}{P(Y|X)} $$ $$ =\frac{P(Y|w,X)P(w)}{\int P(Y|w,X) P(w)\text{d}w}=\frac{likelihood*prior}{Normalization} $$
注意分母上Normalization是一个难以直接计算但是是常量的积分,换个视角看,后验分布也是一个概率分布,只要是概率分布那它的概率密度函数积分应该为1,而分母就起到了归一化的作用。而分子上详细推导:
P(w,Y∣X)=P(Y∣w,X)∗P(w∣X)=P(Y∣w,X)∗P(w)
然后最大化参数的后验分布:
这里的似然就是一个特殊的概率,只不过换了个称谓,似然值(likelihood)的计算如下:
P(Y∣w,X)=i=1∏NP(yi∣w,xi)=i=1∏NN(yi∣wTxi,σ2)=(2π)1/2σ1/21exp[−2σ21(Y−Xw)T(Y−Xw)]
假设参数
w∽N(0,Σp),参数w的先验分布(prior)也可以表达为:
P(w)=N(0,Σp)
其中p为参数向量w的维度
整个后验分布就需要求分子部分,具体为:
P(w∣X,Y)→exp[−2σ21(Y−Xw)T(Y−Xw)]∗exp(−21wTΣp−1w)
然后极大化后验分布(类似于MLE中先取对数再对w求导)求得w的后验分布(这里没有详细推导,因为两个高斯分布的联合分布依旧为高斯分布,只需要配凑为高斯分布的形式即可),容易得到:
μw=σ−2A−1XTY
Σw=A−1
其中:
A−1=σ−2XTX+Σp−1
也可以记为:
w∣(X,Y)∽N(σ−2A−1XTY,A−1)
2.2 Predict
统计推断完成后就可以进行预测,过程如下:给定新的数据$x^{new}$(列向量),要求$f(x^{new})$和$y^{new}$,我们知道$w$是随机变量,那么$f(x)$也是随机变量,那么根据: $$P(f(x^{new})|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new})$$ $$P(y^{new}|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new}+\sigma^2)$$ 也就是说贝叶斯线性回归不仅给出了预测值,还给出了它的概率分布
3. Frequentist
频率学派的视角与贝叶斯派不同,假设参数存在并且为定值,认为当前数据是独立同分布采样得到,获得样本$(x_i,y_i)$的概率$P(x_i,y_i)=P(y_i|x_i)*P(x_i)$,抽到每个样本都是等概率的,因此$P(x_i)$是一样的,那么所有样本的联合分布为: $$P(X,Y)=\prod_{i=1}^NP(y_i,x_i)=P(x_i)^N\prod_{i=1}^NP(y_i|x_i)$$ 频率派的动机就是这个概率是最大的我才能采样得到这个样本集,也就有了下面的极大似然估计。
3.1 MLE
值得注意的是$\theta$是固定的,但也是待求值,先定义关于待求参数$\theta$的似然函数(likelihood function): $$L(\theta)=\prod_{i=1}^NP(y_i|x_i)$$ 又因为$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$可以继续把似然函数写成表达式: $$L(\theta)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-w^Tx_i)^2}{2{\sigma}^2})$$ 对数似然函数: $$l(\theta)=logL(\theta)=Nlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2$$ 然后进行求导即可,这也与最小二乘法的损失函数形式几乎一致,有封闭解$w=(X^TX)^{-1}X^TY$。 不难看出,极大似然估计(或者最小二乘法)得到的就是关于参数$w$的单点估计(最可能出现的值),对应于贝叶斯的最大化后验估计的数学期望。