学习周期：5.19-5.25
学习时长：
5.20 4h -chap7
5.21 1h (19:00-20:00) -chap8
5.22 0.5h (20:00-20:30) -chap8
5.23 1.5h (19:00-20:30) -chap9
5.24 0h (老大回北京了，活就多了)
5.25 1h（19:30-20:30）-chap9

学习内容：Chap7-Chap9
一句话心得：
- 先理解模型概念，后面再看模型实现。

笔记

Chap7 支持向量机

核心概念：线性可分支持向量机、线性支持向量机、非线性支持向量机
与感知机的区别：
1. 感知机利用误分类最小策略，有无穷多解。
2. 线性可分支持向量机用间隔最大化求最优分离超平面，唯一解。
启发式算法：
1. 启发式算法（heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义：一个基于直观或经验构造的算法，在可接受的花费（指计算时间和空间）下给出待解决组合优化问题每一个实例的一个可行解，该可行解与最优解的偏离程度一般不能被预计。
2. 元启发式策略（metaheuristic）则不同，元启发式策略通常是一个通用的启发式策略，他们通常不借助于某种问题的特有条件，从而能够运用于更广泛的方面。元启发式策略通常会对搜索过程提出一些要求，然后按照这些要求实现的启发式算法便被称为元启发式算法。许多元启发式算法都从自然界的一些随机现象取得灵感（e.g. 模拟退火、遗传算法）。现在元启发式算法的重要研究方向在于防止搜索过早得陷入局部最优，已经有很多人做了相应的工作，例如禁忌搜索（tabu）和非改进转移（模拟退火）。
问题
1. P99 7.13，1/2 怎么求得？–为了求导方便，复合函数求导指数上的2可以和1/2约掉。
2. P116 基于椭圆case的映射函数计算出核函数。不用care核函数。
3. 映射函数对模型的解释性很直观，为什么不求？参考logistic回归，现做logit变换后基于映射后的输入空间进行建模

Chap8 提升方法

8.1 AdaBoost

Adaboost（adaptive boost）
强可学习（strongly learnable）、弱可学习（waekly learnable）
本质是弱分类器的线性加权组合
问题： P141 分类误差率最低的点是如何一眼求得的？
模型为加法模型、损失函数为指数函数、学习算法为前向分布算法。

8.4 提升树

基函数是二叉树
根据残差定义权重

Chap9 EM算法

9.1 EM算法

本质是含有隐变量的概率模型参数的极大似然估计，生成模型：
1. E-expectation
2. M-maximization
完全数据（complete-data）：观测数据变量的数据+隐随机变量的数据。不完全数据
Q函数：完全数据的对数似然函数关于在给定观测数据Y和当前参数θi下对未观测数据Z的条件概率分布的期望。最大化Q函数。
问题：什么情况下会用到隐变量模型？

9.2 高斯混合模型

响应度：当前模型参数下第j个观测数据来自第k个分模型的概率，称为分模型k对观测数据yj的响应度。
- mu, sigma alpha 是响应度的加权平均

《统计学习方法》5.19-5.25