前言

广义线性模型定义：

$p(y;η) = b(y)*e^{(T(y)*η^{T} - a(η))}$

高斯分布公式：
$\frac{1}{\sqrt{2π}*δ}*e^{-\frac{(x−u)^2}{2δ^2}}$
线性回归中，δ对于模型参数θ的选择没有影响，为了推导方便我们将其设为1：
$\frac{1}{\sqrt{2π}}e^{-\frac{1}{2}(y-μ)^2}$
分离y^2得：
$\frac{1}{\sqrt{2π}}e^{-\frac{1}{2}y^2}*e^{μy-\frac{1}{2}μ^2}$
指数分布族系数：
$η = μ$
$T (y) = y$
$\frac{μ^2}{2} = \frac{η^2}{2}$
$\frac{1}{\sqrt{2π}}e^\frac{-y^2}{2}$

伯努利分布公式：φ为正面事件发生概率
$p(y;φ) = φ^{y} * (1-φ)^{(1-y)}$
逻辑回归服从伯努利分布
$p (y = 1; φ) = φ$
$p (y = 0; φ) = 1 - φ$
上底数e，指数取对数得：
$p(y;φ) = e^{y*log^{φ}} * e^{(1-y)*log^{(1-φ)}}$
$p(y;φ) = e^{[y*log^{φ} + (1-y)*log^{(1-φ)}]}$
$p(y;φ) = e^{[y*log^{φ} -y*log^{(1-φ)} + log^{(1-φ)}]}$
合并系数y得：
$e^{[y*(log^{\frac{φ}{1-φ}})+ log^{(1-φ)}]}$
套用指数分布族得：
$log^{\frac{φ}{1-φ}}$
$\frac{1}{1+e^{-η}}$

$b (y) = 1$
$T (y) = y$
$a(y) = -log^{(1-φ)} = log^{(1+e^{η})}$

y有多种可能取值，每种取值概率也不同：
$\begin{bmatrix} y_{1} \\ y_{2} \\ ... \\ y_{k} \\ \end{bmatrix} \cdot \begin{bmatrix} φ_{1} \\ φ_{2} \\ ... \\ 1- \displaystyle\sum_{i=1}^{k-1}φ_{i} \\ \end{bmatrix}$
{y=i} 表示最终分类到第i类的概率，可以用矩阵T(y)表达：
$\begin{bmatrix} 0 \\ 0 \\ ... \\ 第i个位置为1\\ ... \\ 0 \\ \end{bmatrix}$
多分类指数分布族：
$p(y;φ) = φ_{1}^{1*{y=1}} * φ_{2}^{1*{y=2}} * ... * φ_{k}^{1*{y=k}}$
$p(y;φ) = φ_{1}^{T(y_{1})} * φ_{2}^{T(y_{2})} * ... * φ_{k}^{T(y_{k}}$
底数取e，指数取ln：
$e^{T(y_{1}) * log^{φ_{1}} + T(y_{2}) * log^{φ_{2}} + ... + (1-\displaystyle \sum_{i=1}^{k-1}T(y_{i})) * log^{φ_{k}}}$
将 $\sum_{i=1}^{k-1}T(y_{i})$ 展开分给前面：
$e^{T(y_{1}) * log^{\frac{φ_{1}}{φ_{k}}} + T(y_{2}) * log^{\frac{φ_{2}}{φ_{k}}} + ... + T(y_{k-1}) * log^{\frac{φ_{k-1}}{φ_{k}}} + log^{φ_{k}}}$
最终得到：
$\begin{bmatrix} log^{(\frac{φ_{1}}{φ_{k}})} \\ log^{(\frac{φ_{2}}{φ_{k}})} \\ ... \\ log^{(\frac{φ_{k-1}}{φ_{k}})} \\ \end{bmatrix}$
$b (y) = 1$

$a(y) = -log^{φ_{k}}$

进一步变型η：
$η_{i} = log^{(\frac{φ_{i}}{φ_{k}})}$
$e^{η_{i}} = \frac{φ_{i}}{φ_{k}}$
$e^{η_{i}} * φ_{k} = φ_{i}$
$φ_{k}*\sum_{i=1}^{k}e^{η_{i}} = \sum_{i=1}^{k}φ_{i} = 1$
$φ_{k} = \frac{1}{\sum_{i=1}^{k}e^{η_{i}}}$
所以：
$φ_{i} = \frac{e^{η_{i}}}{\sum_{j=1}^{k}e^{η_{j}}}$
$p(y=i|x;θ) = φ_{i}$
由假设三得：
$\frac{e^{θ_{i}^{T}x}}{\sum_{j=1}^{k}e^{θ_{j}^{T}x}}$
所以hθ(x)为：
$h θ (x) = E [T (y) ∣ x; θ]$
$\begin{bmatrix} φ_{1} \\ φ_{2} \\ ... \\ φ_{k} \\ \end{bmatrix}$
$\begin{bmatrix} \frac{e^{θ_{1}^{T}x}}{\sum_{j=1}^{k}e^{θ_{j}^{T}x}} \\ \frac{e^{θ_{2}^{T}x}}{\sum_{j=1}^{k}e^{θ_{j}^{T}x}} \\ ... \\ \frac{e^{θ_{k-1}^{T}x}}{\sum_{j=1}^{k}e^{θ_{j}^{T}x}} \\ \end{bmatrix}$
最大似然估计得：
$\displaystyle\sum_{i=1}^{m}log^{p(y^i|x^i; θ)}$
$\displaystyle\sum_{i=1}^{m}log^{\prod_{l=1}^{k}(\frac{e^{θ_{k-1}^{T}x}}{\sum_{j=1}^{k}e^{θ_{j}^{T}x}})^{1*{y(i) = l}}}$