摘要：概率统计分频率学派（Frequentist）和贝叶斯学派（Bayesian），分别以极大似然估计（Maximum Likelihood Estimation,MLE）和贝叶斯后验估计方法（Bayesian Posterior）为各自特色。贝叶斯方法分为统计推断（inference）和预测（predict）两个阶段。前者假设参数确定的通过极大化似然函数转化为一个函数优化问题，后者将待求参数视为随机变量，先假设参数来自某一概率分布，然后通过最大化待求参数的后验分布（MAP）转化为一个函数优化问题。

1.Notation

先规定一下符号以免混淆，Data:${\{x_i,y_i}\}^N_{i=1}$, $x_i\in{IR}^p$,$x_i^T=(x_{i1},x_{i2},...,x_{ip})$,$x_i$为列向量 $$X=(x_1,x_2,...,x_N)^T =\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1p}\\ x_{21} & \cdots & \cdots & x_{2p}\\ \vdots & \ddots\\ x_{N1} & \cdots & \cdots & x_{Np} \end{pmatrix}_{N\times p} $$ $$Y=\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{pmatrix}$$ $$f(x)=w^Tx=x^Tw$$ $$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$$

2.Bayesian

贝叶斯视角将待求参数$w$看做随机变量，并且这个随机变量依赖于样本集的，先给一个w的先验分布（这个分布可能是错的，通过样本集来更新这个分布的参数，使得$w$的后验分布变得更加接近其真实的分布，这个过程类似于人类从现实世界学习来不断更新自己的认知经验，使得更加全面准确，是不是很类似？），贝叶斯方法包括推断和预测两个阶段，它的基本框架如下：

2.1 Inference

$$ P(w|Data)=P(w|X,Y)=\frac{P(w,Y|X)}{p(Y|X)} =\frac{P(w,Y|X)}{P(Y|X)} $$ $$ =\frac{P(Y|w,X)P(w)}{\int P(Y|w,X) P(w)\text{d}w}=\frac{likelihood*prior}{Normalization} $$

注意分母上Normalization是一个难以直接计算但是是常量的积分，换个视角看，后验分布也是一个概率分布，只要是概率分布那它的概率密度函数积分应该为1，而分母就起到了归一化的作用。而分子上详细推导：
$P(w,Y|X)=P(Y|w,X)*P(w|X)=P(Y|w,X)*P(w)$
然后最大化参数的后验分布：

这里的似然就是一个特殊的概率，只不过换了个称谓，似然值(likelihood)的计算如下:
$P(Y|w,X)=\prod_{i=1}^NP(y_i|w,x_i)=\prod_{i=1}^NN(y_i|w^Tx_i,\sigma^2)=\frac{1}{{(2\pi)}^{1/2}{\sigma}^{1/2}}\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]$

假设参数 $w\backsim N(0,\Sigma_p)$ ,参数w的先验分布（prior）也可以表达为：

$P(w)=N(0,\Sigma_p)$
其中p为参数向量w的维度
整个后验分布就需要求分子部分，具体为：
$P(w|X,Y)\to\exp[-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)]*\exp(-\frac{1}{2}w^T \Sigma^{ -1}_{p}w)$
然后极大化后验分布(类似于MLE中先取对数再对w求导)求得w的后验分布(这里没有详细推导，因为两个高斯分布的联合分布依旧为高斯分布，只需要配凑为高斯分布的形式即可)，容易得到：
$\mu_w={\sigma}^{-2}A^{-1}X^TY$
$\Sigma_w=A^{-1}$
其中：
$A^{-1}={\sigma}^{-2}X^TX+\Sigma^{-1}_p$
也可以记为：
$w|(X,Y)\backsim N({\sigma}^{-2}A^{-1}X^TY,A^{-1})$

2.2 Predict

统计推断完成后就可以进行预测，过程如下：给定新的数据$x^{new}$(列向量)，要求$f(x^{new})$和$y^{new}$，我们知道$w$是随机变量，那么$f(x)$也是随机变量，那么根据： $$P(f(x^{new})|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new})$$ $$P(y^{new}|(X,Y,x^{new}))=N((x^{new})^T\mu_w,(x^{new})^T\Sigma_wx^{new}+\sigma^2)$$ 也就是说贝叶斯线性回归不仅给出了预测值，还给出了它的概率分布

3. Frequentist

频率学派的视角与贝叶斯派不同，假设参数存在并且为定值，认为当前数据是独立同分布采样得到，获得样本$(x_i,y_i)$的概率$P(x_i,y_i)=P(y_i|x_i)*P(x_i)$,抽到每个样本都是等概率的，因此$P(x_i)$是一样的，那么所有样本的联合分布为： $$P(X,Y)=\prod_{i=1}^NP(y_i,x_i)=P(x_i)^N\prod_{i=1}^NP(y_i|x_i)$$ 频率派的动机就是这个概率是最大的我才能采样得到这个样本集，也就有了下面的极大似然估计。

3.1 MLE

值得注意的是$\theta$是固定的，但也是待求值，先定义关于待求参数$\theta$的似然函数（likelihood function）: $$L(\theta)=\prod_{i=1}^NP(y_i|x_i)$$ 又因为$y=f(x)+\mathcal{E},\mathcal{E}\backsim N(0,\sigma^2)$可以继续把似然函数写成表达式： $$L(\theta)=\prod_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y_i-w^Tx_i)^2}{2{\sigma}^2})$$ 对数似然函数： $$l(\theta)=logL(\theta)=Nlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\Sigma_{i=1}^N(y_i-w^Tx_i)^2$$ 然后进行求导即可，这也与最小二乘法的损失函数形式几乎一致，有封闭解$w=(X^TX)^{-1}X^TY$。不难看出，极大似然估计（或者最小二乘法）得到的就是关于参数$w$的单点估计（最可能出现的值），对应于贝叶斯的最大化后验估计的数学期望。

Linear regression by Bayesian and Frequentist