统计学习II.7 广义线性模型1 指数分布族

指数分布族的定义
指数分布族的MLE
指数分布族的贝叶斯方法

这一部分介绍广义线性模型，这是一类监督学习方法，通常用来构造分类器等。考虑 ${(X_i,Y_i)\}_{i=1}^N$ ，广义线性模型通常假设 $Y_i$ 服从某种指数分布族。因此这一部分先介绍指数分布族，然后介绍基于不同指数分布族导出的广义线性模型的不同效果。

指数分布族的定义

用 $p(x|\theta)$ 表示某个密度函数，称它是指数分布族(exponential family)如果：
$p(x|\theta) = h(x)\exp(\theta^T \phi(x)-A(\theta))$

根据密度函数的归一性，
$\int p(x|\theta)dx =\int h(x)\exp(\theta^T \phi(x)-A(\theta))dx \\ = \exp(-A(\theta))\int h(x)\exp(\theta^T \phi(x))dx =1$

于是

$A(\theta)=\log Z(\theta), Z(\theta)=\int h(x)\exp(\theta^T\phi(x))dx$

其中 $\theta$ 被称为natural parameter， $\phi(X)$ 是这个指数族的充分统计量（基于Fisher-Neyman定理）， $Z(\theta)$ 是partition function， $A(\theta)$ 是cumulant function，如果 $\phi(X)=X$ ，称这样的指数族为自然指数族(natural exponential family)。

指数分布的另一种形式为
$p(x|\theta) = h(x)\exp(\eta(\theta)^T \phi(x)-A(\eta(\theta)))$ 如果 $\dim(\theta)<\dim(\eta(\theta))$ ，称之为curved exponential family，此时充分统计量的数目比参数多；如果 $\dim(\theta)=\dim(\eta(\theta))$ ，称之为canonical form；

指数分布族的例子

Bernoulli分布

$p(x|\mu)=\mu^x(1-\mu)^{1-x}=\exp(\phi(x)^T\theta)$

其中
$\phi(x)=[1_{x=0},1_{x=1}]^T,\theta=[\log(\mu),\log(1-\mu)]^T$

这并不是一个好的表示，因为 $\in \{0,1\}$ ， $1^T \phi(x)=1$ ，也就是说 $\phi(x)$ 的两个分量是线性相关的，这会导致在估计的时候 $\theta$ 只有一个方程。一种更好的表示方法是
$p(x|\mu)=(1-\mu)\exp \left[ x\log \left( \frac{\mu}{1-\mu} \right) \right]=\exp(\phi(x)^T\theta)=\exp(\phi(x)^T\theta)$

其中
$\phi(x)=x,\theta = \log \left( \frac{\mu}{1-\mu} \right)$

称 $\theta$ 为log-odds ratio；从natural parameter还原为 $\mu$ 的函数是sigmoid函数
$\mu = sigm(\theta)=\frac{1}{1+e^{-\theta}}$

Multinoulli分布

$p(x|\mu_1,\cdots,\mu_K)=\prod_{k=1}^K \mu_k^{x_k}=\exp\left[ \sum_{k=1}^{K-1} x_k\log \left( \frac{\mu_k}{\mu_K}\right) +\log \mu_K\right]$

其中
$\sum_{k=1}^K \mu_k = 1$

于是
$p(x|\theta)=h(x)\exp(\theta^T \phi(x)-A(\theta))$ 其中
$\theta=[\log \frac{\mu_1}{\mu_K},\cdots,\log \frac{\mu_{K-1}}{\mu_K}]^T,\phi(x)=[1_{x=1},\cdots,1_{x=K-1}]^T \\ A(\theta)=\log \left( 1+ \sum_{k=1}^{K-1} e^{\theta_k} \right)$

从natural parameter还原到 $\mu$ 的方法为
$\begin{cases} \mu_k = \frac{e^{\theta_k}}{1+\sum_{j=1}^{K-1}e^{\theta_j}},k=1,\cdots,K-1 \\ \mu_K = \frac{1}{\sum_{j=1}^{K-1}}e^{\theta_{j}} \end{cases}$

指数分布族的性质

性质1
$\frac{dA}{d\theta}=E[\phi(X)]$

直接计算这个导数即可，下面的两个性质也都是直接计算导数
$\frac{dA}{d\theta}=\frac{d}{d\theta}\log \int h(x)\exp(\theta^T\phi(x))dx=\int \phi(x)p(x|\theta)dx$

性质2
$\frac{d^2A}{d\theta^2}=Var[\phi(X)]$

性质3
$\nabla^2 A(\theta)=Cov(\phi(X))$

指数分布族的MLE

指数分布族MLE的moment matching equation
假设 $X_1,\cdots,X_N \sim_{iid} p(x|\theta)$ , 似然函数为
$L(\theta|X_1,\cdots,X_N)=\left[ \prod_{i=1}^N h(X_i) \right] \exp \left( \theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta)\right)$

对数似然为
$\log L(\theta|X_1,\cdots,X_N)=\log \left[ \prod_{i=1}^N h(X_i) \right] +\theta^T \sum_{i=1}^N \phi(X_i) -NA(\theta)$

考虑MLE满足的方程
$\nabla \log L(\theta|X_1,\cdots,X_N) = \sum_{i=1}^N \phi(X_i)-N\nabla A(\theta)=\sum_{i=1}^N \phi(X_i)-NE[\phi(X)]=0$

也就是
$E[\phi(X)]=\frac{1}{N}\sum_{i=1}^N \phi(X_i)$

这里 $\phi(X)$ 是指数分布的充分统计量，称这个方程为moment matching equation，它的含义是充分统计量的样本均值等于理论均值。

指数分布族的贝叶斯方法

指数分布族是一个共轭分布族
我们把似然函数写成下面的形式：
$L(\theta|X_1,\cdots,X_N)\propto g(\theta)^N e^{\eta(\theta)^T s_N},s_N = \sum_{i=1}^N s(X_i)$

引入指数函数族先验，
$p(\theta|nu_0,\tau_0) \propto g(\theta)^{\nu_0}e^{\eta(\theta)^T \tau_0}$

则后验为
$p(\theta|\nu_0+N,\tau_0+s_N)\propto g(\theta)^{\nu_0+N}e^{\eta(\theta)^T(\tau_0+s_N)}$

统计学习II.7 广义线性模型1 指数分布族

统计学习II.7 广义线性模型1 指数分布族

指数分布族的定义

指数分布族的例子

Bernoulli分布

Multinoulli分布

指数分布族的性质

指数分布族的MLE

指数分布族的贝叶斯方法

猜你喜欢