林轩田机器学习基石笔记(第15节)——霍夫丁不等式解决机器学习不可行的难题

在第14节中我们知道,要实现机器学习是很难的,如下图:

我们可以保证我们的算法在训练集D中表现得很好,能够预测出所有的情形。但是我们却没有办法保证在测试集或者为止数据T中依然保持正确。

那要如何解决一难题呢?答案就再概率论里面!

看下面这张图,我们现在有一个罐子,里面装有橘色弹珠和绿色弹珠,其中橘色弹珠的真实比例是 μ ,则绿色弹珠的真实比例是1- μ。 现在我们要通过抽样的方式估计橘色弹珠的比例和绿色弹珠的比例,在样本中我们发现橘色弹珠的比例是 ν ,则绿色弹珠的比例是1-ν

接下来重磅引出霍夫丁不等式,该不等式指出:当样本 N 足够大的时候,样本中橘色弹珠的比例 ν 与罐子中的真实橘色弹珠比例μ 会很接近。其中 ε 表示容忍误差(这个参数人为规定的 0<ε >1,你能容忍多少误差就写多少)。

观察霍夫丁不等式我们可以发现,不等号右边里不涉及到 μ ,所以在这里我们不需要关心 μ  是多少。

好了,这一节课就学到这里。本节课引出霍夫丁不等式,这对后面的课程很关键,希望大家弄明白!

===========================懵逼分割线===========================

欢迎大家加入Q群讨论:463255841

===========================懵逼分割线===========================

猜你喜欢

转载自blog.csdn.net/zhangdongren/article/details/81604190