EM和PCA和LDA和Ensemble Learning

EM

  • 琴生不等式Jensen Inequality

参考下图黑洞传送门
在这里插入图片描述

  • MLE最大似然估计
  1. 一个数据集出现了,我们就最大化这个数据集的似然概率。
  2. 数据集中每个点都是独立出现的,因此可以概率连乘。
  3. 求得使得似然概率最大(当前数据集出现的估计概率)的参数。
  • MLE的对数累加形式
  1. log是凹函数,因此
    l o g ( E ( x ) ) E ( l o g ( x ) ) log(E(x)) \ge E(log(x))
    1. 简便记忆法,log(累加)>=累加log
    2. 等号成立: 随机变量是常数
      在这里插入图片描述

在这里插入图片描述

  • 最大化下界

  • EM 步骤
    在这里插入图片描述

无监督的降维:PCA

  • 数据矩阵中心化
  • 投影到例如某几个轴上, w 1 , w 2 , w 3 . . . . . . . w i w_1,w_2, w_3.......w_i
  1. 如何投影?
    w k T x i w_k^Tx_i
  • 使得方差 最大化: 一般信息方差大于噪声!
    1 n i = 1 N w i T x i 2 \frac {1}{n} \sum_{i=1}^{N}||w_i^Tx_i||^2
    m a x 1 n i = 1 N w k T x i x i T w k max \quad \frac {1}{n} \sum_{i=1}^{N}w_k^Tx_ix_i^Tw_k
    假设 X = [ x 1 x 2 x 3 . . . . . x n ] X=[x_1 \quad x_2 \quad x_3.....x_n] ,其中 x i x_i M × 1 M \times 1 维数据向量
    m a x 1 n w k T X X T w k s . t . w k = 1 max \quad \frac {1}{n}w_k^TXX^Tw_k \quad s.t. ||w_k||=1
    对称矩阵,必定半正定,上式存在最大值
    reference
    在这里插入图片描述

拉格朗日来了
m a x w k T X X T w k s . t . w k = 1 max \quad w_k^TXX^Tw_k \quad s.t. ||w_k||=1
==>
L ( w k ) = w k T X X T w k + λ ( 1 w k T w k ) L (w_k)=w_k^TXX^Tw_k +\lambda (1-w_k^Tw_k)
求导=0
L ( w k ) w k = 2 X X T w k 2 λ w k = 0 \frac{\partial L(w_k)}{\partial w_k} = 2XX^Tw_k-2\lambda w_k=0
2 L ( w k ) w k 2 = 2 X T X 2 λ 0 \frac {\partial ^2L(w_k)}{\partial w_k^2} = 2X^TX-2\lambda \leq 0
在这里插入图片描述

发现:
X X T w k = λ w k XX^Tw_k= \lambda w_k
结论:
特征值最大的轴上投影最佳

有监督的降维:LDA

  1. 投影后,不同类之间,类中心相互离得越远越好。Between Class Seaparability
  2. 投影后,类内方差越小越好,所有的方差之和越小越好. Within Variance
  3. 两类的LDA:
    min   J ( w ) = min ( m 2 m 1 ) 2 s 1 + s 2 2 \min \space J(w) = \min \frac {(m_2-m_1)^2}{s_1^2+s_2^2}
    在这里插入图片描述

Ensemble Learning

  • RF随机森林:Boostrapping自助法/bagging
  1. 分类:投票 / 回归:平均
  2. 有放回地抽样样本,当做森林里某颗树的数据集
  3. 对这颗树,每次随机抽取d个特征作为特征集合,按照决策树增益标准分支。
  4. 自由生长,不要停止或者限制
  5. 随机森林创造者本人的主页
  6. 误差与树之间的correlation有关,大的correlation导致大的误差
  7. 个体树效果越好的话,整体误差会低,整体strength大
  8. 并行
    在这里插入图片描述
    在这里插入图片描述
  • AdaBoost
  1. 串行 boosting
  2. 代价函数是指数函数.
    L i = exp ( y i H ( x ) ) L_i= \exp(-y_iH(x))
  3. 子分类器的权重由错误率得出
  4. 加大错误分类的权重,减小分对的样本权重

在这里插入图片描述
在这里插入图片描述
图的reference

  • Dropout
  1. 一般见于神经网络,防止过拟合
  2. 机制只工作在训练中,前向传播和后向传播中, p表示正常运作的概率,通过多重伯努利分布选择。
  3. “集成”学习
  4. Dropout论文
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43702920/article/details/107693671