机器学习基石——随记

这篇文章是看林轩田老师的机器学习基石课程有感写下,记录了自己第一次不太理解的地方。我会看很多次、想很多次,所以这篇文章可能会被多次修改或追加内容(想起来啥就写点啥 :- )


2021-08-20
有关于计算学习理论的部分:
林轩田老师从机器学习的本质入手,说明了“机器为什么可以学习”。其实也就是西瓜书中第12章讲述的计算学习理论。我是将二者结合了一下才从直觉上搞明白(我太菜了)

1.经验误差:我们手头上有数据集,我们用这些数据集来训练,训练得到的假设函数对这个数据集(训练集)分类的错误样本数的平均值即为经验误差(E_in)。

2.泛化误差:我们要把训练好的模型放在实际应用中,这个模型以前几乎从未见过的样本会输入进来,这种情况下算得的误差即为泛化误差(E_out)。

3.PAC辨识:概率近似正确辨识,我们无法精确地得到一个完全符合实际分布的假设函数,只能说在一个置信度下,认为这个假设函数概率近似地符合实际分布。

4.PAC可学习:我们能够用多项式空间复杂度的样本来得到可PAC辨识的假设函数。

5.增长函数:假设空间H能够将数据集样本中标记的全部值组合{h(x1),h(x2),h(x3),...,h(xm)}的最大组合数。也就是H中的h能够对样本进行标记种类的最大值,它表现出H的分类能力。

6.对分(dichotomy):对于二分类问题,假设函数会把数据集分为两类,每种可能的分法称为对数据集的一种对分。

7.打散(shattering):对于二分类问题,假设空间H中存在假设函数h能够将数据集对分种类达到 2^m 种(即每个样本都会被标记正反例一次)称假设空间H打散了数据集D。

8.VC维:对于二分类问题,假设空间H最多能够打散的样本数量(即H的增长函数值等于 2^m ,m的最大值)称为假设空间H的VC维,记为d_vc(H)

9.可分/不可分:对于某个算法,假设空间中若存在一个h能够完美地把每个样本按照真实标记分开,则称这个算法是可分的;若不存在,则称为不可分的。

模型若要达到“学习”的效果,就要保证两点:
①E_in要小,这是我们最直观地希望看到的学习效果。一个模型首先得在数据集上表现得比较好。
②E_out与E_in近似,我们希望E_out能够与E_in接近,这样的话我们的模型也能在实际运用中有不错的效果。

但问题是,我们不会知道实际分布中的那个最完美的函数 f ,我们看似对E_out没有直接的方式进行控制,但实际上,根据霍夫丁不等式,我们能够从样本规模入手,以一定置信度控制E_in与E_out之间的误差在一个可接受的范围内。在西瓜书中,从Hoeffding不等式入手,能够推导出在有限假设空间以及无限假设空间的情况下,E_in与E_out相差超过限制的概率与假设空间大小、样本规模相关。


continue…

Guess you like

Origin blog.csdn.net/qq_43579980/article/details/119811710