EM

琴生不等式Jensen Inequality

参考下图黑洞传送门
在这里插入图片描述

MLE最大似然估计

一个数据集出现了，我们就最大化这个数据集的似然概率。
数据集中每个点都是独立出现的，因此可以概率连乘。
求得使得似然概率最大（当前数据集出现的估计概率）的参数。

MLE的对数累加形式

log是凹函数，因此
$log(E(x)) \ge E(log(x))$
1. 简便记忆法，log(累加)>=累加log
2. 等号成立: 随机变量是常数

在这里插入图片描述

最大化下界
EM 步骤

无监督的降维：PCA

数据矩阵中心化
投影到例如某几个轴上， $w_1,w_2, w_3.......w_i$

如何投影？
$w_k^Tx_i$

使得方差 最大化：一般信息方差大于噪声！
$\frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2$
$max \quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k$
假设 $X=[x_1 \quad x_2 \quad x_3.....x_n]$ ，其中 $x_i$ 是 $M \times 1$ 维数据向量
$max \quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1$
对称矩阵，必定半正定，上式存在最大值
reference

拉格朗日来了：
$max \quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1$
==>
$L (w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k)$
求导=0
$\frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0$
$\frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0$
在这里插入图片描述