第十二章计算学习理论

12.1 基础知识

泛化误差经验误差

12.2 PAC学习(PAC：概率近似正确）

概念c 概念类C

假设空间H,若目标概念c属于H,则H中存在假设能将所有示例按与真实标记一致的方向完全分开，称该问题对算法A是可分的；若c不属于H，则H中不存在能将所有示例完全正确划分开的假设，称该问题对学习算法A是不可分的。

这里写图片描述

12.3 有限假设空间

12.3.1 可分情况

这里写图片描述

通过上式可以得知：对于可分情形的有限假设空间，目标概念都是PAC可学习的，即当样本数量满足上述条件之后，在与训练集一致的假设中总是可以在1-σ概率下找到目标概念的有效近似。

12.3.2 不可分情况

即目标概念c不存在于假设空间。但当假设空间给定时，必然存一个假设的泛化误差最小，若能找出此假设的有效近似也不失为一个好的目标，这便是不可知学习(agnostic learning)的来源。

这时候便要用到Hoeffding不等式：

这里写图片描述

对于假设空间中的所有假设，出现泛化误差与经验误差之差大于e的概率和为：

这里写图片描述

因此，可令不等式的右边小于（等于）σ，便可以求出满足泛化误差与经验误差相差小于e所需的最少样本数，同时也可以求出泛化误差界。

这里写图片描述

12.4 VC维

现实中经常面临的是无限假设空间，这里需要考虑假设空间的VC维。

先了解增长函数、对分、打散的概念。

增长函数：对于给定数据集D，假设空间中的每个假设都能对数据集的样本赋予标记，因此一个假设对应着一种打标结果，不同假设对D的打标结果可能是相同的，也可能是不同的。随着样本数量m的增大，假设空间对样本集D的打标结果也会增多，增长函数则表示假设空间对m个样本的数据集D打标的最大可能结果数，因此增长函数描述了假设空间的表示能力与复杂度。

打散：例如对二分类问题来说，m个样本最多有2^m个可能结果，每种可能结果称为一种“对分”，若假设空间能实现数据集D的所有对分，则称数据集能被该假设空间打散。

因此尽管假设空间是无限的，但它对特定数据集打标的不同结果数是有限的，假设空间的VC维正是它能打散的最大数据集大小。通常这样来计算假设空间的VC维：若存在大小为d的数据集能被假设空间打散，但不存在任何大小为d+1的数据集能被假设空间打散，则其VC维为d。

这里写图片描述

同时书中给出了假设空间VC维与增长函数的两个关系：

这里写图片描述

直观来理解（1）式也十分容易：首先假设空间的VC维是d，说明当m<=d时，增长函数与2^m相等，例如：当m=d时，右边的组合数求和刚好等于2^d；而当m=d+1时，右边等于2^(d+1)-1，十分符合VC维的定义，同时也可以使用数学归纳法证明；（2）式则是由（1）式直接推导得出。

在有限假设空间中，根据Hoeffding不等式便可以推导得出学习算法的泛化误差界；但在无限假设空间中，由于假设空间的大小无法计算，只能通过增长函数来描述其复杂度，因此无限假设空间中的泛化误差界需要引入增长函数。
这里写图片描述

上式给出了基于VC维的泛化误差界，同时也可以计算出满足条件需要的样本数（样本复杂度）。若学习算法满足经验风险最小化原则（ERM），即学习算法的输出假设h在数据集D上的经验误差最小，可证明：任何VC维有限的假设空间都是（不可知）PAC可学习的，换而言之：若假设空间的最小泛化误差为0即目标概念包含在假设空间中，则是PAC可学习，若最小泛化误差不为0，则称为不可知PAC可学习。

13.4 稳定性

稳定性考察的是当算法的输入发生变化时，输出是否会随之发生较大的变化，输入的数据集D有以下两种变化：

这里写图片描述

若对数据集中的任何样本z，满足：

这里写图片描述

即原学习器和剔除一个样本后生成的学习器对z的损失之差保持β稳定，称学习器关于损失函数满足β-均匀稳定性。同时若损失函数有上界，即原学习器对任何样本的损失函数不超过M，则有如下定理：

这里写图片描述

事实上，若学习算法符合经验风险最小化原则（ERM）且满足β-均匀稳定性，则假设空间是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起，区别在于：假设空间关注的是经验误差与泛化误差，需要考虑到所有可能的假设；而稳定性只关注当前的输出假设。

第十二章 计算学习理论

13.4 稳定性

猜你喜欢

第十二章计算学习理论