一、学习算法

机器学习算法是一种能够从数据中学习的算法。

任务 $T$
性能度量 $P$
经验 $E$

二、容量、过拟合和欠拟合

在先前未观测到的输入上表现良好的能力被称为泛化（generalization）。

决定机器学习算法效果是否好的因素：

降低训练误差。
缩小训练误差和测试误差的差距。

这两个因素对应机器学习的两个主要挑战：欠拟合（underﬁtting）和过拟合（overﬁtting）。欠拟合是指模型不能在训练集上获得足够低的误差。而过拟合是指训练误差和和测试误差之间的差距太大。

没有免费午餐定理（no free lunch theorem）表明，在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上都有相同的错误率。换言之，在某种意义上，没有一个机器学习算法总是比其他的要好。我们能够设想的最先进的算法和简单地将所有点归为同一类的简单算法有着相同的平均性能（在所有可能的任务上）。

三、超参数和验证集

大多数机器学习算法都有超参数，可以设置来控制算法行为。

用于挑选超参数的数据子集被称为验证集（validation set）。

四、估计、偏差和方差

$\theta$ 的点估计一般用 $\hat\theta$ 来表示。

估计的偏差定义为： $bias(\hat\theta_m)=E(\hat\theta_m)-\theta$ 偏差为0称为无偏估计。

五、最大似然估计

对 $\theta$ 的最大似然估计为： $\theta_{ML}=\argmax_\theta p_{model(X;\theta)}\\=\argmax_\theta \prod_{i=1}^mp_{model(x^{(i)};\theta)}$

因为乘积不容易计算，所以我们一般用 $\log$ 似然， $\theta_{ML}=\argmax_\theta \sum_{i=1}^m\log p_{model}(x^{(i)};\theta)\\=\argmax_\theta E_{x\sim \hat p_{data}}\log p_{model}(x;\theta)$

六、贝叶斯统计

最大后验估计选择后验概率中最大的点： $\theta_{MAP}=\argmax_\theta p(\theta|x)=\argmax_\theta \log p(x|\theta)+\log p(\theta)$

七、监督学习算法

可以之间参考《统计学方法》这本书对应的章节。

八、无监督学习算法

可以之间参考《统计学方法》这本书对应的章节。

九、随机梯度下降

随机梯度下降的核心是，梯度是期望，期望可使用小规模的样本近似估计，在后面也会有具体的讲解。

十、构建机器学习算法

组合模型、代价和优化算法来构建学习算法的配方同时适用于监督学习和无监督学习。

十一、促使深度学习发展的挑战

维数灾难
局部不变性和平滑正则化
流形学习

下一章传送门：花书读书笔记（五）-深度前馈网络

花书读书笔记（四）-机器学习基础