第一章绪论

概念

研究如何通过计算的手段，利用经验来改善系统自身的性能。研究的主要内容：在计算机上从数据中产生“模型”的算法，即“学习算法“

基本术语

数据集：描述一个事件或者对象的数据的集合
示例（样本）：数据集中的单条记录
属性：反映事件或者对象在某方面的表现或性质的事项
属性值：属性上的取值
属性空间（样本空间，输入空间）：属性张成的空间
学习（训练）：从数据中学得模型的过程
训练数据：训练过程使用的数据
训练样本：训练数据中的单个数据
标记空间（输出空间）：用（x_i,y_i）表示第i个样例，其中y_i ∈ y 是示例x_i的标记， y 是所有标记的集合
分类：预测的是离散值
回归：预测的是连续值
测试样本：学习模型之后需要测试，被测试的样本成为测试集
聚类：将数据集划分为若干组
监督学习：（分类和回归）
无监督学习：（聚类）
泛化能力：学得的模型适用于新样本的能力
独立同分布：通常假设样本孔家中全体样本服从一个未知分布，我们获得的每个样本都是独立的服从这个分布上采样获得的

假设空间

归纳(induction)与演绎(deduction)是科学的推理的两大基本手段。前者是从特殊到一般的泛化（generalization）,即从具体的事实归结出一般性规律，演绎是从一般到特殊的“特化（specialization）”,即从原理推演出具体的状况。

The hypothesis space,which defines the class of functions mapping the input space to the output space. That is, the functions operate on the feature vectors of the input objects, and make predictions according to the format of the output space.
假设空间：监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射集合，这个集合就是假设空间（hypothesis space）。假设空间的确定意味着学习范围的确定。

我们可以把学习过程看做是一个在所有假设（hypothesis）组成的空间中进行搜索的过程，搜索的目标是找到与训练集“匹配（fit）”的假设，即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定，假设空间及其规模大小就确定了。

例如西瓜有三种属性：色泽，根蒂，敲响。这三种属性分别有3,2，2种1取值，那么西瓜的假设空间大小为4×3×3+1=37。这里为什么是37 而不是4×3×3=36，看了下其他人的解释：

对于一个瓜是不是好瓜，要有一个判定条件，这个判定条件就是一个假设。比如说，我们的假设是：色泽青绿、根蒂蜷缩、敲声浊响的瓜是好瓜。或者我们也可以假设：只要色泽青绿、根蒂蜷缩的瓜，无论敲声随便是什么声音（书中用通配符*表示），都是好瓜。极端情况下，我们也可以假设世界上是没有好瓜的，不管是什么颜色什么根蒂什么敲声，都是坏瓜（书中用空集表示）。

关键在“没有好瓜“这种极端的假设。假设空间实际上就是对所有的可能进行排列组合。

归纳偏好

在实际的问题中，我们通常会面临很大的假设空间，但是学习过程是基于有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在一个与训练集一致的“假设合集”（版本空间）。例如假设空间中有两个假设：

好瓜←→(色泽=*；根蒂=蜷缩；敲声=*)
好瓜←→(色泽=*；根蒂=*；敲声=浊响)

而训练集中一个数据：(色泽=*；根蒂=蜷缩；敲声=浊响)。这个时候就无法根据假设空间做出合理的判定，所以机器学习算法，在学习的过程中对某种类型假设的偏好，称为“归纳偏好“。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑。

“奥卡姆剃刀（Occam's razor）”是一种常用的，自然科学研究中最基本的原则，“即若有多个假设与观察一致，则选最简单的那个”。

没有免费午餐（NFL）

奥卡姆剃刀并非唯一可行的原则，事实上，归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

对于任何两个学习算法ζ_a和ζ_b，他们的期望性能是一致的：

\sum f E o t e (ζ a | X, f) = \sum f E o t e (ζ b | X, f)

NFL公式推导

单个点样本点x，若真实值f(x)等于预测值h(x)，那么I(x)=1,不相等则I(x)=0，表述为函数：

I (x) = {1, 0, f(x)=h(x) f(x) \neq h(x)

那么假设函数h(x)“训练集误差”可表示为：

E h = \sum x \in X - χ I (f (x) \neq h (x)) / m

其中 mm 表示除训练集外样本总数 m=X−χm=X−χ ， ∑xI(f(x)≠h(x))∑xI(f(x)≠h(x)) 表示预测出错的总个数。
对照书中的公式， P(x)=1/mP(x)=1/m ，如何理解这里的 P(x)P(x) ,列出其他人的观点：

1.设P(x)为“在某个数据集中抽取一个能让h误判的样本的概率”
2.由于x是一个随机变量，那么这个误差值也是一个随机变量，取值为0或1，其在训练集之外的所有样本上的期望可以看作假设函数h在训练集之外的所有样本上预测的错误率

可能需要看原始文献
看了《大学数学概率论与数理统计》这里的P表示误差的分布规律，P(x)表示单个样品出错的概率，同时也是不出错的概率。

需要注意的是，现实问题中我们常面临很大的假设空间，但学习是基于有限个样本训练集进行的，因此，可能有多个假设与训练集一致，即存在一个与训练集一致的“假设集合”

所以产生的假设函数hh(x)是有概率的，所以另P(h|X,ζa)表示算法ζa基于训练数据X产生假设h的概率。那么算法,ζa对所有可能的h产生的误差为：

E o t e (, ζ a | X, f) = \sum h \sum x \in X - χ I (f (x) \neq h (x)) P (x) * P (h | X, ζ a)

对所有的f按均匀分布对误差求和：

\sum f E o t e (, ζ a | X, f) = \sum f \sum h \sum x \in X - χ I (f (x) \neq h (x)) P (x) * P (h | X, ζ a)

= \sum x \in X - χ P (x) \sum h P (h | X, ζ a) \sum f I (f (x) \neq h (x))

首先，这里考虑的是二分类问题，而且假设真实目标函数f可以是任何输入空间X到输出空间{0, 1}的映射，那么整个函数空间的大小就应该是2|χ|。
然后，这里假设在整个函数空间中所有可能的目标函数f是均匀分布的（即所有真实的问题是均匀出现的）。在二分类问题中，对于一个样本点x，假设函数h(x)的预测值要么是0要么是1，不妨假设为0，那么由于f是均匀分布的，所有将x映射为0的真实函数f的数量和所有将x映射为1的真实函数f的数量应该是一样的，那么，在函数空间中就有一半数量的可能的f于假设函数h的预测不一致，于是就有：

\sum f I (f (x) \neq h (x)) = 1 2 2 | χ |

另外：

\sum h P (h | X, ζ a) = 1

那么：

\sum f E o t e (, ζ a | X, f) = 2 | χ | - 1 \sum x \in X - χ P (x) * 1

最终的结果与算法ζa无关。

NFL小结

NFL定理重要前提：所有的问题出现的机会相同，所有问题同等重要。但是实际情况并不是这样。很多时候我们只关心自己试图解决的问题，希望为他找到一个解决方案，至于这个解决方案在别的问题，甚至相似问题是是否为好方案，我们并不关心。
NFL定理假设f均匀分布，但是实际情况并不如此
NFL定理最重要的寓意，是让我们清楚的认识到，脱离实际问题，空谈“什么学习算法更好”毫无意义，因为若考虑潜在的问题，则所有的学习算法一样好，要谈算法的相对优劣，必须针对具体的学习问题。