广义线性模型与指数分布族

在机器学习领域，很多模型都是属于广义线性模型（Generalized Linear Model,GLM），如线性回归，逻辑回归，Softmax回归等。这篇文章广义线性模型，并由它推导出线性回归，逻辑回归，Softmax回归的表达式。
广义线性模型是基于指数分布族的，所以我们先来看一下指数分布族的一般形式：

p (y; η) = b (y) e x p (η T T (y) - a (η))

$p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))$
其中，

η $\eta$ 为自然参数，

T(y) $T(y)$ 为充分统计量（一般情况下，如高斯分布和伯努利分布中，

T(y)=y $T(y)=y$ ）；

a(η) $a(\eta)$ 为累积量函数；在一般情况下，

η $\eta$ 为实数（多项式分布中

η $\eta$ 为向量）。给定

T,a,b, $T,a,b,$ 通过参数

η $\eta$ ，我们可以得到指数分布族中的各类分布。

证明高斯分布属于指数分布族：
因为方差 $\sigma^2$ 项对我们最终求 $\theta$ 和 $h_\theta(x)$ 没有影响，因此为了简化计算，我们令 $\sigma=1$ .

p (y; u) = = = 1 2 π - - \sqrt σ e x p (- ( y - u ) 2 2 σ 2) 1 2 π - - \sqrt e x p (- ( y - u ) 2 2) 1 2 π - - \sqrt e x p (- 1 2 y 2) * e x p (u y - 1 2 u 2)

$\begin{eqnarray*} p(y;u)&=&{1\over \sqrt{2\pi}\sigma}exp(-{(y-u)^2\over 2\sigma^2})\\ &=& {1\over \sqrt{2\pi}}exp(-{(y-u)^2\over 2})\\ &=&{1\over \sqrt{2\pi}}exp(-{1\over 2}y^2)*exp(uy-{1\over 2}u^2) \end{eqnarray*}$
因此：

b (y) η T (y) a (η) = = = = 1 2 π - - \sqrt e x p (- 1 2 y 2) u y 1 2 u 2 = 1 2 η 2

$\begin{eqnarray*} b(y)&=&{1\over \sqrt{2\pi}}exp(-{1\over 2}y^2)\\ \eta&=&u \\ T(y) &=&y\\ a(\eta)&=&{1\over 2}u^2 ={1\over 2}\eta^2 \end{eqnarray*}$
由以上分析，我们可以得到结论：高斯分布属于指数分布族的一类。

证明伯努利分布属于指数分布族：

p (y; ϕ) = = = ϕ y (1 - ϕ) 1 - y e x p (y l o g ϕ + (1 - y) l o g (1 - ϕ)) e x p (y l o g ϕ 1 - ϕ + l o g (1 - ϕ))

$\begin{eqnarray*} p(y;\phi)&=&\phi^y(1-\phi)^{1-y}\\ &=& exp(ylog\phi+(1-y)log(1-\phi))\\ &=&exp(ylog{\phi\over 1-\phi}+log(1-\phi)) \end{eqnarray*}$
因此：

b (y) η T (y) a (η) = = = = 1 l o g ϕ 1 - ϕ y - l o g (1 - ϕ) = l o g (e η + 1)

$\begin{eqnarray*} b(y)&=&1\\ \eta&=&log{\phi\over 1-\phi} \\ T(y) &=&y\\ a(\eta)&=&-log(1-\phi)=log(e^\eta+1) \end{eqnarray*}$
由以上分析，我们可以得到结论：伯努利分布属于指数分布族的一类。
同时，由

η=logϕ1−ϕ $\eta=log{\phi\over 1-\phi}$ 可以得到

ϕ=11+e−η $\phi={1\over 1+e^{-\eta}}$ ，这就是我们熟悉的sigmoid函数。

为了推导广义线性模型，我们先做以下三个假设：
1. 给定 $x,\theta,$ 输出 $y$ 满足参数为 $\eta$ 的指数族分布
2. $h(x)=E[y|x]$ (线性回归和逻辑回归都满足该式子，例如逻辑回归中， $h(x)=p(y=1|x;\theta)$ ,数学期望 $E[y|x]=1*p(y=1|x;\theta)+0*p(y=0|x;\theta)$ ,因此 $h(x)=E[y|x]$ )
3. 自然参数 $\eta$ 与输入特征变量 $x$ 线性相关，即 $\eta=\theta^Tx$ (当 $\eta$ 为变量时， $\eta_i=\theta_i^Tx$ )

个人总结：若模型的分布属于指数分布族，那么该模型可以由广义线性模型推导出来。

由广义线性模型推导出线性回归：
我们知道，在线性回归中， $y|x;\theta-N(\mu,\sigma^2)$ ,即输出 $y$ 满足均值为 $\mu$ 的高斯分布;由广义线性模型得到：

h θ (x) = = = = E [y | x] μ η θ T x

$\begin{eqnarray*} h_\theta(x)&=&E[y|x]\\ &=& \mu\\ &=&\eta\\ &=&\theta^Tx \end{eqnarray*}$
其中，第一个等式由假设2得到，第二个等式是高斯分布的数学期望，第三个等式由假设1得到，即由高斯分布属于指数分布族推导出来，第四个等式由假设3得到。

由广义线性模型推导出逻辑回归：
我们知道，在逻辑回归中， $y|x;\theta-Bernoulli(\phi)$ ,其中 $\phi=p(y=1|x;\theta)$ ,即输出 $y$ 满足伯努利分布;由广义线性模型得到：

h θ (x) = = = = = E [y | x] p (y = 1 | x; θ) ϕ 1 1 + e - η 1 1 + e - θ T x

$\begin{eqnarray*} h_\theta(x)&=&E[y|x]\\ &=& p(y=1|x;\theta)\\ &=&\phi\\ &=&{1\over 1+e^{-\eta}} \\ &=&{1\over 1+e^{-\theta^Tx}} \end{eqnarray*}$
其中，第一个等式由假设2得到，第二个等式是高斯分布的数学期望，第三个等式是我们的定义，第四个等式由假设1得到，即由伯努利分布属于指数分布族推导出来，第五个等式由假设3得到。

由广义线性模型推导出多项式回归：
Softmax回归本质上是一个多分类问题。假设输出 $y$ 有k类，即 $y\epsilon [1,2,...,k].$
我们对多项式回归输出的k个可能值参数化： $\phi_1,\phi_2,...,\phi_k$ ,表示每个输出值的概率大小。当然，因为概率和为1，所以这么多个参数是冗余的，即其中一个参数可以由其他所有参数推导出来，比如 $\phi_k = 1-\sum_{i=1}^{k-1}\phi_i$
我们定义 $T(y)\epsilon R^{k-1}$ 为以下表达式：

T (1) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, T (2) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 010 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, T (3) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 001 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, . . ., T (k - 1) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 000 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, T (k) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 000 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$T(1)=\begin{bmatrix} 1 \\ 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix},T(2)=\begin{bmatrix} 0 \\ 1 \\ 0 \\ \vdots\\ 0 \end{bmatrix},T(3)=\begin{bmatrix} 0 \\ 0 \\ 1 \\ \vdots\\ 0 \end{bmatrix},...,T(k-1)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 1 \end{bmatrix},T(k)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 0 \end{bmatrix}$
我们可以看到，

T(y) $T(y)$ 是一个

k−1 $k-1$ 维的向量，而不是一个实数。我们定义

(T(y))i $(T(y))_i$ 为

T(y) $T(y)$ 的第

i $i$ 个元素。
为了方便表示，我们使用

1{.} $1\{.\}$ 作为指示性函数，当括号里的值为真时，

1{.}=1 $1\{.\}=1$ ，否则

1{.}=0 $1\{.\}=0$ 。比如：

1{2=3}=0 $1\{2=3\}=0$ ，

1{3=4−1}=1 $1\{3=4-1\}=1$ 。根据以上定义，我们可以得到下式：

(T(y))i=1{y=i} $(T(y))_i=1\{y=i\}$ ,且

E[(T(y))i]=p(y=i)=ϕi. $E[(T(y))_i]=p(y=i)=\phi_i.$
多项式分布：

p (y | x; θ) = = = = = ϕ 1 {y = 1} 1 ϕ 1 {y = 2} 2 . . . ϕ 1 {y = k} k ϕ 1 {y = 1} 1 ϕ 1 {y = 2} 2 . . . ϕ 1 - \sum k - 1 i = 1 1 {y = i} k ϕ (T (y)) 1 1 ϕ (T (y)) 2 2 . . . ϕ 1 - \sum k - 1 i = 1 (T (y)) i k e x p ((T (y)) 1 l o g ϕ 1 + (T (y)) 2 l o g ϕ 2 + . . . + (1 - \sum i = 1 k - 1 (T (y)) i) l o g ϕ k) e x p ((T (y)) 1 l o g ϕ 1 ϕ k + (T (y)) 2 l o g ϕ 2 ϕ k + . . . + (T (y)) k - 1 l o g ϕ k - 1 ϕ k + l o g ϕ k)

$\begin{eqnarray*} p(y|x;\theta)&=&\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1\{y=k\}}\\ &=&\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1-\sum_{i=1}^{k-1}1\{y=i\}}\\ &=&\phi_1^{(T(y))_1}\phi_2^{(T(y))_2}...\phi_k^{1-\sum_{i=1}^{k-1}(T(y))_i}\\ &=&exp((T(y))_1log\phi_1+(T(y))_2log\phi_2+...+(1-\sum_{i=1}^{k-1}(T(y))_i)log\phi_k)\\ &=&exp((T(y))_1log{\phi_1\over \phi_k}+(T(y))_2log{\phi_2\over \phi_k}+...+(T(y))_{k-1}log{\phi_{k-1}\over \phi_k}+log\phi_k) \end{eqnarray*}$
因此：

b (y) η T (y) a (η) = = = = 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ l o g ϕ 1 ϕ k l o g ϕ 2 ϕ k ⋮ l o g ϕ 1 ϕ k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (T (y)) 1 (T (y)) 2 ⋮ (T (y)) k - 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ - l o g (ϕ k)

$\begin{eqnarray*} b(y)&=&1\\ \eta&=&\begin{bmatrix}log{\phi_1\over \phi_k}\\ log{\phi_2\over \phi_k}\\ \vdots\\ log{\phi_1\over \phi_k} \end{bmatrix}\\ T(y) &=&\begin{bmatrix}(T(y))_1\\ (T(y))_2\\ \vdots\\ (T(y))_{k-1} \end{bmatrix}\\ a(\eta)&=&-log(\phi_k) \end{eqnarray*}$
由以上分析可得到，多项式分布属于指数分布族的一类。
而且，对于类别i,有

ηi=logϕiϕk $\eta_i=log{\phi_i\over \phi_k}$ ,所以，

ϕi=ϕkeηi $\phi_i=\phi_ke^{\eta_i}$ ，累加所有类别的概率为1，即：

∑ki=1ϕi=∑ki=1ϕkeηi=1 $\sum_{i=1}^k\phi_i=\sum_{i=1}^k\phi_ke^{\eta_i}=1$ ,所以

ϕk=1∑ki=1eηi $\phi_k={1\over \sum_{i=1}^ke^{\eta_i}}$ ,因此

ϕi=eηi∑kj=1eηj $\phi_i={e^{\eta_i}\over \sum_{j=1}^ke^{\eta_j}}$ ,这便是softmax函数。
预测输出值

h θ (x) = = = = E [y | x] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 1 {y = 1} | x; θ 1 {y = 2} | x; θ ⋮ 1 {y = k - 1} | x; θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ϕ 1 ϕ 2 ⋮ ϕ k - 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e x p ( θ T 1 x ) \sum k j = 1 e x p ( θ T j x ) e x p ( θ T 2 x ) \sum k j = 1 e x p ( θ T j x ) ⋮ e x p ( θ T k - 1 x ) \sum k j = 1 e x p ( θ T j x ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{eqnarray*} h_\theta(x)&=&E[y|x]\\ &=&\begin{bmatrix} 1\{y=1\}|x;\theta\\ 1\{y=2\}|x;\theta\\ \vdots\\ 1\{y=k-1\}|x;\theta \end{bmatrix}\\ &=&\begin{bmatrix} \phi_1\\ \phi_2\\ \vdots\\ \phi_{k-1} \end{bmatrix}\\ &=&\begin{bmatrix} {exp(\theta_1^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)}\\ {exp(\theta_2^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)}\\ \vdots\\ {exp(\theta_{k-1}^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)} \end{bmatrix} \end{eqnarray*}$
输出值为每个类别的概率，且

p(y=k|x;θ)=1−∑k−1i=1p(y=i|x;θ) $p(y=k|x;\theta)=1-\sum_{i=1}^{k-1}p(y=i|x;\theta)$
接下来，我们开看一下参数的优化：
对数似然函数：

l (θ) = = = = = = l o g \prod i = 1 m p (y (i) | x (i); θ) \sum i = 1 m l o g p (y (i) | x (i); θ) \sum i = 1 m l o g ϕ 1 {y (i) = 1} 1 ϕ 1 {y (i) = 2} 2 . . . ϕ 1 {y (i) = k} k \sum i = 1 m 1 {y (i) = 1} l o g ϕ 1 + 1 {y (i) = 2} l o g ϕ 2 + . . . + 1 {y (i) = k} l o g ϕ k \sum i = 1 m 1 {y (i) = 1} l o g e x p ( θ T 1 x ( i ) ) \sum k j = 1 e x p ( θ T j x ( i ) ) + 1 {y (i) = 2} l o g e x p ( θ T 2 x ( i ) ) \sum k j = 1 e x p ( θ T j x ( i ) ) + . . . + 1 {y (i) = k} l o g e x p ( θ T k x ( i ) ) \sum k j = 1 e x p ( θ T j x ( i ) ) \sum i = 1 m (1 {y (i) = 1} l o g e θ T 1 x (i) + 1 {y (i) = 2} l o g e θ T 2 x (i) + . . . + 1 {y (i) = k} l o g e θ T k x (i) - l o g \sum j = 1 k e θ T j x)

$\begin{eqnarray*} l(\theta)&=&log\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)\\ &=&\sum_{i=1}^mlog \ p(y^{(i)}|x^{(i)};\theta)\\ &=&\sum_{i=1}^mlog \ \phi_1^{1\{y^{(i)}=1\}}\phi_2^{1\{y^{(i)}=2\}}...\phi_k^{1\{y^{(i)}=k\}}\\ &=&\sum_{i=1}^m{1\{y^{(i)}=1\}}log \ \phi_1+{1\{y^{(i)}=2\}}log \ \phi_2+...+{1\{y^{(i)}=k\}}log \ \phi_k\\ &=&\sum_{i=1}^m{1\{y^{(i)}=1\}}log \ {exp(\theta_1^Tx^{(i)})\over \sum_{j=1}^kexp(\theta_j^Tx^{(i)})}+{1\{y^{(i)}=2\}}log \ {exp(\theta_2^Tx^{(i)})\over \sum_{j=1}^kexp(\theta_j^Tx^{(i)})}+...+{1\{y^{(i)}=k\}}log \ {exp(\theta_k^Tx^{(i)})\over \sum_{j=1}^kexp(\theta_j^Tx^{(i)})}\\ &=&\sum_{i=1}^m(1\{y^{(i)}=1\}log \ e^{\theta_1^Tx^{(i)}}+1\{y^{(i)}=2\}log \ e^{\theta_2^Tx^{(i)}}+...+1\{y^{(i)}=k\}log \ e^{\theta_k^Tx^{(i)}}-log\sum_{j=1}^ke^{\theta_j^Tx}) \end{eqnarray*}$
对类别l的参数求导：

\partial l ( θ ) \partial θ j = = \sum i = 1 m (1 {y (i) = l} * x (i) - 1 \sum k j = 1 e x p ( θ T j x ( i ) ) * e x p (θ T l x) * x (i)) \sum i = 1 m (1 {y (i) = l} * x (i) - p (y (i) = l | x (i); θ) * x (i))

$\begin{eqnarray*} {\partial l(\theta)\over \partial \theta_j}&=&\sum_{i=1}^m(1\{y^{(i)}=l\}*x^{(i)}-{1\over \sum_{j=1}^kexp(\theta_j^Tx^{(i)})}*exp(\theta_l^Tx)*x^{(i)})\\ &=&\sum_{i=1}^m(1\{y^{(i)}=l\}*x^{(i)}-p(y^{(i)}=l|x^{(i)};\theta)*x^{(i)}) \end{eqnarray*}$
注意：

∂l(θ)∂θj ${\partial l(\theta)\over \partial \theta_j}$ 只是针对一个类别所做的偏导，我们还需要继续对类别的每个参数做偏导，最后对所有类别执行相同求导操作，这样才算完整地完成参数优化的一次迭代。接着，使用梯度上升法不断迭代，直到收敛。
最后，我们的预测输出值的表达式如下：

h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e x p ( θ T 1 x ) \sum k j = 1 e x p ( θ T j x ) e x p ( θ T 2 x ) \sum k j = 1 e x p ( θ T j x ) ⋮ e x p ( θ T k - 1 x ) \sum k j = 1 e x p ( θ T j x ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{eqnarray*} h_\theta(x) &=&\begin{bmatrix} {exp(\theta_1^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)}\\ {exp(\theta_2^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)}\\ \vdots\\ {exp(\theta_{k-1}^Tx)\over \sum_{j=1}^kexp(\theta_j^Tx)} \end{bmatrix} \end{eqnarray*}$
取

hθ(x) $h_\theta(x)$ 中概率最大的那一项作为输出值。例如：假设预测样本预测值为

hθ(x)=[0.1,0,0.05,0.6,0.05,0.05,0.1,0.05,0,0] $h_\theta(x)=[0.1,0,0.05,0.6,0.05,0.05,0.1,0.05,0,0]$ ,那么该测试样本被判定为4.
值得注意的是，softmax函数存在参数冗余的问题，因此优化得到的最优参数不是唯一的。我自己在搭建卷积神经网络，使用softmax函数时就出现这个问题，导致得不到想要的结果。解决方法是在损失函数处添加权重衰减项。（具体的我就不自己写了，码了这么多公式实在不想再写了。当一回伸手党，直接贴图。有兴趣的同学可以到 Softmax回归查看详细内容）
Softmax回归模型参数化的特点

广义线性模型与指数分布族

猜你喜欢