第四周学习笔记

1.CS229

课程地址

第九讲，经验风险最小化

主要内容

方差-偏差权衡（variance-bias trade），欠拟合与过拟合（underfitting and overfitting）
经验风险最小化（Empirical risk minimization），选择训练集上误差最小的算法
样本复杂度界（the sample complexity bounds），为了达到某个特定错误界需要多少样本

值得注意的地方

1.iid

独立同分布（Identically and definitively distributed）

2.关于方差和偏差的严格定义

西瓜书中，对于回归模型的方差偏差定义为

v a r (x) = E_{D} [(f (x; D) - \bar{f} (x))]

$var(x)=E_D[(f(x;D)-\overline{f}(x))]$

b i a s^{2} (x) = (\bar{f} (x) - y)^{2}

$bias^2(x)=(\overline{f}(x)-y)^2$
其中，

D

$D$ 是训练集

\bar{f} (x) = E [f (x; D)]

$\overline{f}(x)=E[f(x;D)]$

分类问题中，目前（2015）仍然没有统一的方差偏差的定义

第十讲特征选择

主要内容

VC维
模型选择
交叉验证
简单保留交叉验证（simple hold out cross validation）70%-30%，
k折交叉验证（k fold cv）k=5，k=10，
留一法（Leave one out）k=m
特征选择
Forward Search
Backward Search
Filter feature selection（使用相关系数或互信息选择）

值得注意的地方

1.最小化经验误差的合理性

我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法，所需的训练样本大约与假设所需的参数呈线性关系（好的参数化）

2.验证集误差

模型在验证集上的误差是对泛化误差更好的逼近

第十一讲贝叶斯统计与正则化

主要内容

贝叶斯Logistic回归，使用高斯分布作为先验分布，最终效果等价于在损失函数后增加一个正则化项，能够使得结果更加平滑，防止过拟合。
在线学习（Online learning）
如何使机器学习算法应用得很好
如何开始解决问题

值得注意的地方

1.如何使机器学习算法应用更好

①偏差与方差诊断
High Variance：训练误差远小于测试误差
High Bias：两个误差都很大
②模型问题还是算法收敛问题？
比较两个模型的加权准确率 $\alpha$ 和 $J(\theta)$ （当前目标是最大化）
case1:

α_{s v m} > α_{B L R}

$\alpha_{svm}>\alpha_{BLR}$

J (θ_{s v m}) > J (θ_{B L R})

$J(\theta_{svm})>J(\theta_{BLR})$
说明BLR优化没有搜索到最佳的收敛点，属于优化问题

case2:

α_{s v m} > α_{B L R}

$\alpha_{svm}>\alpha_{BLR}$

J (θ_{s v m}) < J (θ_{B L R})

$J(\theta_{svm})<J(\theta_{BLR})$
说明BLR没有优化问题，但是满足损失函数最小却不一定使得

J

$J$ 更大，属于模型问题

③即使学习算法的效果很好，也需要进行诊断，这是为了
* 帮助更好地理解问题
* 得到更好的直觉关于一些有一点没用的东西
* 通过诊断，了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型，可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析（Ablative analysis）
每次消除某个步骤看看对最终性能的影响。

2.如何开始一个机器学习项目

Careful design
Build and fix

3.一些经验

三分之一的时间用于诊断
做应用时，不必研究与应用相关不大的理论

第十二讲 K-means算法

主要内容

无监督学习（Unsupervised Learning）
K-均值算法（K-means algorithm）
密度估计（Density Estimation），异常检测（Anomaly Detection）
最大期望算法（EM Algorithm）

值得注意的地方

1.K-means的优化

K-means的失真函数

J (c, μ) = Σ_{i = 1}^{m} {‖ x^{(i)} - μ_{c^{(i)}} ‖}^{2}

$J(c,\mu)=\Sigma^{m}_{i=1}\left \| x^{(i)}-\mu_{c^{(i)}} \right \|^2$
一定程度上衡量了分类的效果好坏，K-means运行过程中基本是在最小化这个函数，通过交替地对每个样本的

c^{(i)}

$c^{(i)}$ 与类中心

μ

$\mu$ 的优化，相当于使用坐标上升进行优化。

2.EM算法和GDA的比较

GDA已知标签，EM算法未知标签，GDA假设标签服从伯努利分布，EM算法假设服从多项分布，GDA假设协方差矩阵相同，EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。