西瓜书阅读笔记(机器学习周志华)D1什么是假设空间和版本空间?

.
由于之前已经度过部分机器学习的文章甚至自己也手撸过反向传播算法和Jacobian Matrix的求导。所以绪论部分就非常简单的过一过。

假设空间和版本空间

假设空间

以西瓜书中,判断瓜的好坏为例。一个瓜有色泽、根蒂、敲声三种特征,每种特征有3中取值。我一开始以为,假设空间就是所有特征的取值进行排列组合,得到333=27种排列。这个排列就是假设空间。

然而,假设空间的划分更加细节。例如,好瓜的判断标准,可能与某个特征无关,我们暂且把这个无关的特征假设为“敲声”,那么,好瓜的判断标准就可以定为(色泽:青绿,根蒂:蜷缩,敲声:什么样都行)。在假设空间中,我们把这么一种特征值的组合,视作和其他特征值不一样的假设。所以,尽管所有的取值范围3个,我们还应该手动加上一个“什么样都行”的特征。

那么到这里,我以为假设空间应该就是444=64种组合了,然而。假设空间考虑的情况出乎我意料的细节。他还考虑了没有好瓜的情况,即第65种情况, ∅ \empty 的情况。

所以假设空间是444+1=65种组合的集合。

版本空间

版本空间就是和我们训练集一致的假设空间,例如,我们的训练集,即瓜摊只有两个瓜,很明显,无法涵盖65种组合。但是这两个瓜的特征组合肯定是假设空间的子集。所以,在假设空间中,能和我们训练集一致的集合就是版本空间。

NFL 定理的证明

NFL定理:即天下没有免费的午餐定理(No Free Lunch Theorem)
这一定理用于说明,没有一个普适的机器学习算法,特定问题特定分析。


模型评估与选择

经验误差与过拟合

最常见的评估方法就是精度:accuracy.即 1-错误率。
误差:误差分为经验误差泛化误差,其中经验误差又称为训练误差。即学习器(learner)在训练集上的误差。一般的训练过程就是最小化训练误差。这也是我们唯一能做的。但是如果我们的训练误差特别小了,精度甚至到100%了。我们的学习器有可能依然不理想,这既涉及到泛化问题。
泛化能力差的模型,我们称之为过拟合。就像是一个死记硬背的学生,不会举一反三,学习器只是记住了训练样本,而没有真的学会里面的归纳。

评估方法

我们一般把训练集分成测试集、训练集、验证集来对模型进行评估。这里暂时不介绍验证集。我们只关注测试集和训练集。
留出法(hold-out)
该方法,直接将数据集划分为两个互斥的集合。一个为训练集S,另一个为测试集T。然而,划分测试集的时候也会因为划分数据集的方法问题,使得S和T的数据分布出现偏差,导致评估不准确的结果。具体怎么划分,得分情况划分,目前没有唯一标准。大多数的做法是S:T=2:1~4:1
待续

猜你喜欢

转载自blog.csdn.net/qq_40941932/article/details/127639195
今日推荐