ML入门书籍Tom Mitchell《机器学习》笔记——第二章概念学习

概念学习：给定某一类别的若干正例和反例，从中获得该类别的一般定义。也就是说判断某个东西是不是属于这个概念。

概念学习可以看作是一个搜索的过程。Tom在书中介绍了两种搜索的算法：Find-S（寻找极大特殊假设）和候选消除算法（确定变型空间）。

Find-S：就是说，先假设最特殊的函数，所有参数输入，输出的结果都是反例，也就是得不到我们要的那个目标概念（正例）。这时，如果一个训练数据带到这个函数，发现结果是正例，说明我们假设的函数太特殊了，因此要放宽要求，至少让这个训练数据的参数输入能产生一个正例的输出结果。

就这样一步一步，我们可以获得最大的特殊假设（函数），使得所有的训练数据符合这个假设。

候选消除算法：Find-S只能获得一个符合的假设，但是我们知道符合所有训练数据的假设往往不只有一个。候选消除算法就可以获得这些所有假设的集合（变型空间）。

这个空间的下限其实就是Find-S所获得的极大特殊假设，上限是什么呢？

先假设最一般的函数，如果有一个训练数据的输出是反例，说明我们这个目标函数太宽泛了，因此得缩小范围，一步步缩小，直到所有训练数据都符合这个极大一般假设，就可以了。那么这个极大一般假设也就是变型空间的上限。

很显然，我们在上述推理过程中，可以发现两个算法的前提条件是训练样例中不能有错误，否则正确的假设也会被排除掉。说明这两个算法的去噪能力极弱。

其次，在整个搜索的空间中一定要有正确的目标函数，否则没有的话，全搜索完也没用啊。

所以可以看出，这里面有许多前提假设，这些前提假设至关重要。Tom因此引出了归纳偏置的概念。

一个完全无偏的学习器，也就是说该学习器如果不对目标概念做预先的假定，它从根本上无法对未见实例进行分类。

归纳偏置：归纳学习需要某种形式的预先假定。

一种算法如果有偏性越强，那么它的归纳能力越强，可以分类更多的未见实例。