高斯分布-笔记(1)

1 -单变量高斯分布

单变量高斯分布概率密度函数定义为：

p (x) = 1 2 π σ - - - \sqrt e x p {- 1 2 (x - μ σ) 2} (1.1)

$p(x)=\frac{1}{\sqrt{2\pi\sigma}}exp\{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2\} \tag{1.1}$
式中

μ $\mu$ 为随机变量

x $x$ 的期望，

σ2 $\sigma^2$ 为

x $x$ 的方差，

σ $\sigma$ 称为标准差：

μ = E (x) = \int \infty - \infty x p (x) d x (1.2)

$\mu=E(x)=\int_{-\infty}^\infty xp(x)dx \tag{1.2}$

σ 2 = \int \infty - \infty (x - μ) 2 p (x) d x (1.3)

$\sigma^2=\int_{-\infty}^\infty(x-\mu)^2p(x)dx \tag{1.3}$
可以看出，该概率分布函数，由期望和方差就能完全确定。高斯分布的样本主要都集中在均值附近，且分散程度可以通过标准差来表示，其越大，分散程度也越大，且约有95%的样本落在区间

(μ−2σ,μ+2σ) $(\mu-2\sigma,\mu+2\sigma)$

2 - 多元高斯分布

多元高斯分布的概率密度函数。多元高斯分布的概率密度函数定义：

p (x) = 1 ( 2 π ) d 2 | Σ | 1 2 e x p {- 1 2 (x - μ) T Σ - 1 (x - μ)} (2.1)

$p({\bf x})=\frac{1}{(2\pi)^{\frac{d}{2}}|\Sigma|^\frac{1}{2}}exp\{-\frac{1}{2}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu})\} \tag{2.1}$
其中

x=[x1,x2,...,xd]T ${\bf x}=[x_1,x_2,...,x_d]^T$ 是

d $d$ 维的列向量；

μ=[μ1,μ2,...,μd]T ${\bf \mu}=[\mu_1,\mu_2,...,\mu_d]^T$ 是

d $d$ 维均值的列向量；

Σ $\Sigma$ 是

d×d $d\times d$ 维的协方差矩阵；

Σ−1 ${\Sigma}^{-1}$ 是

Σ $\Sigma$ 的逆矩阵;

|Σ| $|\Sigma|$ 是

Σ $\Sigma$ 的行列式；

(x−μ)T $(\bf x-\mu)^T$ 是

(x−μ) $(\bf x-\mu)$ 的转置，且

μ = E (x) (2.2)

$\mu=E(\bf x) \tag{2.2}$

Σ = E {(x - μ) (x - μ) T} (2.3)

$\Sigma=E\{(\bf x-\bf \mu)(\bf x - \mu)^T\}\tag{2.3}$
其中

μ,Σ $\mu,\Sigma$ 分别是向量

x $\bf x$ 和矩阵

(x−μ)(x−μ)T $(\bf x -\mu)(\bf x -\mu)^T$ 的期望，诺

xi $x_i$ 是

x $\bf x$ 的第

i $i$ 个分量，

μi $\mu_i$ 是

μ $\mu$ 的第

i $i$ 个分量，

σ2ij $\sigma_{ij}^2$ 是

∑ $\sum$ 的第

i,j $i,j$ 个元素。则:

μ i = E (x i) = \int \infty - \infty x i p (x i) d x i (2.4)

$\mu_i=E(x_i)=\int_{-\infty}^\infty x_ip(x_i)dx_i \tag{2.4}$
其中

p(xi) $p(x_i)$ 为边缘分布：

p (x i) = \int \infty - \infty \cdot \cdot \cdot \int \infty - \infty p (x) d x 1 d x 2 \cdot \cdot \cdot d x d (2.5)

$p(x_i)=\int_{-\infty}^\infty\cdot\cdot\cdot\int_{-\infty}^\infty p({\bf x})dx_1dx_2 \cdot\cdot\cdot dx_d \tag{2.5}$
而

σ 2 i j = = E [(x i - μ i) (x j - μ j)] \int \infty - \infty \int \infty - \infty (x i - μ i) (x j - μ j) p (x i, x j) d x i d x j (2.6)

$\begin{eqnarray}\sigma_{ij}^2 &=&E[(x_i-\mu_i)(x_j-\mu_j)]\\ &=&\int_{-\infty}^\infty\int_{-\infty}^\infty(x_i-\mu_i)(x_j-\mu_j)p(x_i,x_j)dx_idx_j \end{eqnarray} \tag{2.6}$
不难证明，协方差矩阵总是对称非负定矩阵，且可表示为：

Σ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ σ 211 σ 212 \cdot \cdot \cdot σ 2 1 d σ 212 \cdot \cdot \cdot σ 2 1 d σ 222 \cdot \cdot \cdot σ 2 2 d \cdot \cdot \cdot σ 2 2 d \cdot \cdot \cdot σ 2 d d ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\Sigma= \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 \cdot\cdot\cdot \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 \cdot\cdot\cdot \sigma_{2d}^2\\ \cdot\cdot\cdot &\cdot\cdot\cdot\\ \sigma_{1d}^2 & \sigma_{2d}^2 \cdot\cdot\cdot \sigma_{dd}^2 \end{bmatrix}$
对角线上的元素

σ2ii $\sigma_{ii}^2$ 为

xi $x_i$ 的方差，非对角线上的元素

σ2ij $\sigma_{ij}^2$ 为

xi $x_i$ 和

xj $x_j$ 的协方差。
由上面可以看出，均值向量

μ $\mu$ 有

d $d$ 个参数，协方差矩阵

∑ $\sum$ 因为对称，所以有

d(d+1)/2 $d(d+1)/2$ 个参数，所以多元高斯分布一共由

d+d(d+1)/2 $d+d(d+1)/2$ 个参数决定。
从多元高斯分布中抽取的样本大部分落在由

μ $\mu$ 和

Σ $\Sigma$ 所确定的一个区域里，该区域的中心由向量

μ $\mu$ 决定，区域大小由协方差矩阵

Σ $\Sigma$ 决定。且从式子（2.1）可以看出，当指数项为常数时，密度

p(x) $p(\bf x)$ 值不变，因此等密度点是使指数项为常数的点，即满足:

(x - μ) T Σ - 1 (x - μ) = 常 数 (2.7)

$({\bf x}-\mu)^T{\Sigma}^{-1}({\bf x-\mu})=常数 \tag{2.7}$
上式的解是一个超椭圆面，且其主轴方向由

∑ $\sum$ 的特征向量所决定，主轴的长度与相应的协方差矩阵

Σ $\Sigma$ 的特征值成正比。
在数理统计中，式子（2.7）所表示的数量：

γ 2 = (x - μ) T Σ - 1 (x - μ)

$\gamma^2=({\bf x}-\mu)^T{\Sigma}^{-1}({\bf x}-\mu)$
称为

x $\bf x$ 到

μ $\mu$ 的Mahalanobis距离的平方。所以等密度点轨迹是

x $\bf x$ 到

μ $\mu$ 的Mahalanobis距离为常数的超椭球面。这个超椭球体大小是样本对于均值向量的离散度度量。对应的M式距离为

γ $\gamma$ 的超椭球体积为：

V = V d | Σ | 1 2 γ d

$V=V_d|\Sigma|^{\frac{1}{2}}\gamma^d$
其中

Vd $V_d$ 是d维单位超球体的体积：

V d = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ π d 2 ( d 2 ) !, 2 d π ( d - 1 2 ) ( d - 1 2 ) ! d !, d 为 奇 数 d 为 偶 数

$V_d=\begin{cases}\frac{\pi^{\frac{d}{2}}}{(\frac{d}{2})!},&d 为偶数\\ \frac{2^d\pi^{(\frac{d-1}{2})}(\frac{d-1}{2})!}{d!},d为奇数 \end{cases}$

如果多元高斯随机向量 $\bf x$ 的协方差矩阵是对角矩阵，则 $\bf x$ 的分量是相互独立的高斯分布随机变量。

2.1 - 多变量高斯分布中马氏距离的2维表示

上面式2.7是样本点 $\bf x$ 与均值向量 $\bf \mu$ 之间的马氏距离。我们首先对 $\Sigma$ 进行特征分解，即 $\Sigma=\bf U\Lambda U^T$ ,这里 $\bf U$ 是一个正交矩阵，且 $\bf U^TU=I$ ， $\bf\Lambda$ 是特征值的对角矩阵。且：

Σ - 1 = U - T Λ - 1 U - 1 = U Λ - 1 U T = \sum i = 1 d 1 λ i u i u T i

${\bf\Sigma}^{-1}={\bf U^{-T}\Lambda^{-1}U^{-1}}={\bf U\Lambda^{-1}U^T}=\sum_{i=1}^d\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^T$
这里

ui ${\bf u}_i$ 是

U $\bf U$ 的第

i $i$ 列，包含了第

i $i$ 个特征向量。因此可以重写成：

(x - μ) T Σ - 1 (x - μ) = = = (x - μ) T (\sum i = 1 d 1 λ i u i u T i) (x - μ) \sum i = 1 d 1 λ i (x - μ) T u i u T i (x - μ) \sum i = 1 d y 2 i λ i

$\begin{eqnarray}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu}) &=&({\bf x-\mu})^T\left(\sum_{i=1}^d\frac{1}{\lambda_i}{\bf u}_i{\bf u}_i^T\right)({\bf x-\mu})\\ &=&\sum_{i=1}^d\frac{1}{\lambda_i}({\bf x-\mu})^T{\bf u}_i{\bf u}_i^T({\bf x-\mu})\\ &=&\sum_{i=1}^d\frac{y_i^2}{\lambda_i} \end{eqnarray}$
这里

yi=uTi(x−μ) $y_i={\bf u}_i^T(\bf x-\mu)$ ,可以看出，当只选择两个维度时，即可得到椭圆公式 :

y 2 1 λ 1 + y 2 2 λ 2 = 1

$\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=1$
其中该椭圆的长轴与短轴的方向由特征向量而定，轴的长短由特征值大小而定。
ps：所以得出结论，马氏距离就是欧式距离先通过

μ $\bf \mu$ 中心化，然后基于

U $\bf U$ 旋转得到的。

2.2多变量高斯分布的最大似然估计

假设有 $N$ 个iid的高斯分布的样本即 ${\bf x}_i$ ~ $\cal N(\bf \mu,\Sigma)$ ，则该分布的期望和方差（这里是协方差）：

μ^= 1 N \sum i = 1 N x i = x ¯ (2.2.1)

$\hat\mu=\frac{1}{N}\sum_{i=1}^N{\bf x}_i=\overline{\bf x}\tag{2.2.1}$

Σ^= = = = 1 N \sum i = 1 N (x i - x ¯) (x i - x ¯) T 1 N \sum i = 1 N (x i x T i - x i x ¯ T - x ¯ x T i + x ¯ x ¯ T) 1 N \sum i = 1 N (x i x T i) - 2 x ¯ x ¯ T + x ¯ x ¯ T 1 N \sum i = 1 N (x i x T i) - x ¯ x ¯ T (2.2.2)

$\begin{eqnarray}\hat{\Sigma} &=&\frac{1}{N}\sum_{i=1}^N({\bf x}_i-{\bf\overline x})({\bf x}_i-{\bf\overline x})^T\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T-{\bf x}_i{\bf \overline x}^T-{\bf \overline x}{\bf x}_i^T+{\bf \overline x}{\bf \overline x}^T\right)\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T\right)-2{\bf \overline x}{\bf \overline x}^T+{\bf \overline x}{\bf \overline x}^T\\ &=&\frac{1}{N}\sum_{i=1}^N\left({\bf x}_i{\bf x}_i^T\right)-{\bf \overline x}{\bf \overline x}^T \end{eqnarray}\tag{2.2.2}$
为了求得他们的最大似然估计，需要预先知道如下知识：

图2.2.1 书mlapp上公式4.10

x T A x = t r (x T A x) = t r (x x T A) = t r (A x x T) (2.2.3)

${\bf x^TAx}=tr({\bf x^TAx})=tr({\bf xx^TA})=tr({\bf Axx^T})\tag{2.2.3}$
因为多元高斯分布可写成:

p (d | μ, Σ) = 1 2 π d / 2 * | Σ - 1 | 1 / 2 * exp [- 1 2 (x - μ) T Σ - 1 (x - μ)] (2.2.4)

$p(d|\mu,\Sigma)= \frac{1}{{2\pi}^{d/2}}*|\Sigma^{-1}|^{1/2}*\exp\left[-\frac{1}{2}({\bf x-\mu})^T{\Sigma}^{-1}({\bf x-\mu})\right]\tag{2.2.4}$

L (μ, Σ) = = log p (d | μ, Σ) 0 + N 2 log | Λ | - 1 2 \sum i = 1 N (x i - μ) T Λ (x i - μ) (2.2.5)

$\begin{eqnarray} \scr L({\bf \mu},\Sigma) &=&\log p(d|{\bf \mu},\Sigma)\\ &=&0+\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}\sum_{i=1}^N({{\bf x}_i-\mu})^T{\bf \Lambda}({{\bf x}_i-\mu}) \end{eqnarray}\tag{2.2.5}$
这里

Λ=Σ−1 $\bf \Lambda=\Sigma^{-1}$ 是协方差矩阵的逆矩阵，也就是精度矩阵。
并假设

yi=xi−μ ${\bf y}_i={\bf x}_i-\mu$ ，采用链式求导法则,且按照图2.2.1第二个公式，得：

d d μ (1 2 (x i - μ) T Σ - 1 (x i - μ)) = = = d d y i (y T i Σ - 1 y i) d y i d μ (Σ - 1 + Σ - T) y i (- 1) - (Σ - 1 + Σ - T) y i

$\begin{eqnarray} \frac{d}{d\mu}\left(\frac{1}{2}({{\bf x}_i-\mu})^T{\Sigma}^{-1}({{\bf x}_i-\mu})\right) &=&\frac{d}{d{\bf y}_i}\left({\bf y}_i^T\Sigma^{-1}{\bf y}_i\right)\frac{d{\bf y}_i}{d\mu}\\ &=&(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i(-1)\\ &=&-(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i \end{eqnarray}$
且

Σ $\Sigma$ 是对称矩阵，所以：

d d μ L (μ, Σ) = = = = 0 + d d μ (- 1 2 \sum i = 1 N (x i - μ) T Λ (x i - μ)) - 1 2 \sum i = 1 N (- (Σ - 1 + Σ - T) y i) \sum i = 1 N Σ - 1 y i Σ - 1 \sum i = 1 N (x i - μ) = 0

$\begin{eqnarray} \frac{d}{d\mu}{\scr L}(\mu,\Sigma) &=&0+\frac{d}{d\mu}\left(-\frac{1}{2}\sum_{i=1}^N({{\bf x}_i-\mu})^T{\bf \Lambda}({{\bf x}_i-\mu})\right)\\ &=&-\frac{1}{2}\sum_{i=1}^N\left(-(\Sigma^{-1}+\Sigma^{-T}){\bf y}_i\right)\\ &=&\sum_{i=1}^N\Sigma^{-1}{\bf y}_i\\ &=&\Sigma^{-1}\sum_{i=1}^N({\bf x}_i-\mu)=0 \end{eqnarray}$
从而， 多元高斯分布的期望为：

μ^=1N∑Ni=1xi $\hat \mu=\frac{1}{N}\sum_{i=1}^N{\bf x}_i$

因为

A1B+A2B=(A1+A2)B $\bf A_1B+A_2B=(A_1+A_2)B$

tr(A)+tr(B)=tr(A+B) $tr({\bf A})+tr({\bf B})=tr(\bf A+B)$
所以

tr(A1B)+tr(A2B)=tr[(A1+A2)B] $tr({\bf A_1 B})+tr({\bf A_2 B})=tr[(\bf A_1+A_2)B]$
通过公式2.2.3，且假定

Sμ=∑Ni=1(xi−μ)(xi−μ)T ${\bf S}_\mu=\sum_{i=1}^N({{\bf x}_i-\mu})({{\bf x}_i-\mu})^T$ 可知公式2.2.5可表示成：

L (μ, Σ) = = = log p (d | μ, Σ) 0 + N 2 log | Λ | - 1 2 \sum i = 1 N t r [(x i - μ) (x i - μ) T Λ] N 2 log | Λ | - 1 2 t r (S μ Λ) (2.2.5)

$\begin{eqnarray} \scr L({\bf \mu},\Sigma) &=&\log p(d|{\bf \mu},\Sigma)\\ &=&0+\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}\sum_{i=1}^Ntr[({{\bf x}_i-\mu})({{\bf x}_i-\mu})^T{\bf \Lambda}]\\ &=&\frac{N}{2}\log|{\bf \Lambda}|-\frac{1}{2}tr({\bf S_\mu}{\bf \Lambda}) \end{eqnarray}\tag{2.2.5}$
所以：

d L ( μ , Σ ) d Λ = N 2 Λ - T - 1 2 S T μ = 0

$\frac{d\scr L(\mu,\Sigma)}{d{\bf \Lambda}}=\frac{N}{2}{\bf \Lambda^{-T}}-\frac{1}{2}{\bf S}_\mu^T=0$

Λ - T = Λ - 1 = Σ = 1 N S μ

${\bf \Lambda^{-T}}={\bf \Lambda^{-1}}=\Sigma=\frac{1}{N}{\bf S}_\mu$
最后得到了 多元高斯分布协方差的期望值为:

Σ^=1N∑Ni=1(xi−μ)(xi−μ)T $\hat{\Sigma} =\frac{1}{N}\sum_{i=1}^N({\bf x}_i-{\bf\mu})({\bf x}_i-{\bf\mu})^T$

2.3 基于多元变量高斯分布的分类方法

1 - 各个类别的协方差都相等 $\Sigma_{c_k}=\Sigma$ :
并且可以直观的知道：

p (X = x | Y = c k, θ) = N (x | μ c k, Σ c k ） (3.1)

$p(X={\bf x}|Y=c_k,{\bf \theta}) = {\cal N}({\bf x|\mu}_{c_k},\Sigma_{c_k}）\tag{3.1}$
ps：基于第

k $k$ 类基础上关于变量

x $\bf x$ 的概率，就是先挑选出所有

k $k$ 类的样本，然后再计算其多元高斯概率。且如果

Σck $\Sigma_{c_k}$ 是对角矩阵(即不同特征之间相互独立)，则其就等于朴素贝叶斯。

且可知对于多分类问题，给定一个测试样本其特征向量，预测结果为选取概率最大的那个类别：

y^(x) = = a r g max c k P (Y = c k | X = x) a r g max c k P ( Y = c k , X = x ) P ( X = x ) (3.2)

$\begin{eqnarray}\hat y({\bf x}) &=&arg\max_{c_k}P(Y={c_k}|X={\bf x})\\ &=&arg\max_{c_k}\frac{P(Y={c_k},X={\bf x})}{P(X={\bf x})} \end{eqnarray}\tag{3.2}$
因为对于每个类别计算当前测试样本概率时，分母都是相同的，故省略，比较分子大的就行，也就是联合概率大的那个，从而式子3.2等价于：

y^(x) = a r g max c k P (X = x | Y = c k) P (Y = c k)

$\hat y({\bf x})=arg\max_{c_k}P(X={\bf x}|Y={c_k})P(Y={c_k})$
而所谓LDA，就是当每个类别的协方差都相等，即

Σck=Σ $\Sigma_{c_k}=\Sigma$ ,所以:

P(X=x|Y=ck)=1(2π)d/2|Σ|1/2exp[−12(x−μck)TΣ−1(x−μck)] $P(X={\bf x}|Y={c_k})=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp[-\frac{1}{2}({\bf x-\mu}_{c_k})^T\Sigma^{-1}({\bf x-\mu}_{c_k})]$

P(Y=ck)=πck $P(Y={c_k})=\pi_{c_k}$
从而，可发现：

P (Y = c k | X = x) 正 比 于 = = = = π c k exp [- 1 2 (x - μ c k) T Σ - 1 (x - μ c k)] π c k exp [- 1 2 x T Σ - 1 x + 1 2 x T Σ - 1 μ c k + 1 2 μ T c k Σ - 1 x - 1 2 μ T c k Σ - 1 μ c k] π c k exp [- 1 2 x T Σ - 1 x + μ T c k Σ - 1 x - 1 2 μ T c k Σ - 1 μ c k] e x p [μ T c k Σ - 1 x - 1 2 μ T c k Σ - 1 μ c k + log π c k] e x p [- 1 2 x T Σ - 1 x] e x p [ μ T c k Σ - 1 x - 1 2 μ T c k Σ - 1 μ c k + log π c k ] e x p [ 1 2 x T Σ - 1 x ]

$\begin{eqnarray}P(Y={c_k}|X={\bf x}) \quad &正比于& \pi_{c_k}\exp[-\frac{1}{2}({\bf x-\mu}_{c_k})^T\Sigma^{-1}({\bf x-\mu}_{c_k})]\\ &=&\pi_{c_k}\exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}+\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf \mu}_{c_k}+\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}]\\ &=&\pi_{c_k}\exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}+{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}]\\ &=&exp[{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}]exp[-\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}]\\ &=&\frac{exp[{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf x}-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}]}{exp[\frac{1}{2}{\bf x}^T\Sigma^{-1}{\bf x}]} \end{eqnarray}$
从而上式的分母又可以省略
假定

γck=−12μTckΣ−1μck+logπck $\gamma_{c_k}=-\frac{1}{2}{\bf \mu}_{c_k}^T\Sigma^{-1}{\bf \mu}_{c_k}+\log\pi_{c_k}$ ，而

βck=Σ−1μck $\beta_{c_k}=\Sigma^{-1}{\bf \mu}_{c_k}$
从而:

P (Y = c k | X = x) = e x p ( β T c k x + γ c k ) \sum | c | k = 1 e x p ( β T c k x + γ c k ) = S (η) c k

$P(Y={c_k}|X={\bf x})=\frac{exp({\beta_{c_k}^T{\bf x}+\gamma_{c_k})}}{\sum_{k=1}^{|c|}exp({\beta_{c_k}^T{\bf x}+\gamma_{c_k})}}=S(\eta)_{c_k}$
这里

η=[βTc1x+γc1,βTc2x+γc2,...,βTc|c|x+γc|c|] $\eta=[{\beta_{c_1}^T{\bf x}+\gamma_{c_1}},{\beta_{c_2}^T{\bf x}+\gamma_{c_2}},...,{\beta_{c_|c|}^T{\bf x}+\gamma_{c_|c|}}]$ ,可以发现它就是一个softmax函数，即：

S (η) c k = e x p ( η c k ) \sum | c | k = 1 e x p ( η c k )

$S(\eta)_{c_k}=\frac{exp(\eta_{c_k})}{\sum_{k=1}^{|c|}exp(\eta_{c_k})}$
softmax之所以这样命名就是因为它有点像max函数。
对于LDA模型，假设将样本空间划分成n个互相独立的空间，则线性分类面，就是该分类面两边的类别预测概率相等的时候，即：

P(Y=ck|X=x)=P(Y=c′k|X=x) $P(Y={c_k}|X={\bf x})=P(Y={c_k'}|X={\bf x})$

βTckx+γck=βTc′kx+γc′k $\beta_{c_k}^T{\bf x}+\gamma_{c_k}=\beta_{c_k'}^T{\bf x}+\gamma_{c_k'}$

xT(βc′k−βck)=ηc′k−ηck ${\bf x}^T(\beta_{c_k'}-\beta_{c_k})=\eta_{c_k'}-\eta_{c_k}$

参考资料：
[] 边肇祺。模式识别第二版
[] Machine learning A Probabilistic Perspective
[] William.Feller, 概率论及其应用(第1卷)

1 -单变量高斯分布

2 - 多元高斯分布

2.1 - 多变量高斯分布中马氏距离的2维表示

2.2多变量高斯分布的最大似然估计

2.3 基于多元变量高斯分布的分类方法

猜你喜欢