Feasibility of Learning & Training versus Test（林轩田-机器学习） - 代码天地

Feasibility of Learning & Training versus Test（林轩田-机器学习）

其他 2018-07-21 06:14:56 阅读次数: 0

整体思路：

1.想办法找出training set 训练出来的hypothesis 对test set的作用效果。

2.通过hoeffding不等式，把通过训练集找出适合测试集且效果好hypothesis。

做数学题或者考公务员的时候，经常会有寻找规律的题目。

那我们做一下下面这道题：

现实生活中，这类找规律的题不一定会有正确答案。你可以说g(x)=1/-1。

问题：那么我们怎样保证通过训练training set能得到确保test set也得到很好的准确性。

所以这节，林老师将会从hoeffding不等式关联到机器学习的可行性。

这个例子：我们有一个bin里面装了无数个珠子（橙色和绿色），我们无法知道橙色在里面占的比例是多少。但是我们能不能通过有限的样本N，去得出呢？

不可以：如果抽出来的样本都是绿色的，但是罐子里面比较多的是橙色；

可以：抽出来的样本比例和罐子里的比例差不多。

根据hoeffding不等式，我们可以看到：如果样本数量足够大，那么我们就可以用抽出来的样本的学习效果等移过去瓶子上。

等换到机器学习上就是：如果样本数量足够大，那么我们就可以用training set的学习效果等移过去test set上。

但是，问题来了。训练的效果可以移到测试的集上，但是没有说训练集的效果是好是坏。如果训练的样本本来就是不好的，那么移到过去测试集并不能有力地说明什么。

接下来我们将会从有限的hypothesis set和hypothesis set进行分析。

有限：

这一行说明，这个假设h，通过hoeffding可知，在所有数据上出现bad data的概率。

而这里每一列，说明这个data在不同的h里面的好坏程度。

我们假设如果我每一个data都是不想交的，得出的一定时最高的。所以我们可以把它设为上界。有如下公式。

这里我们只需要知道有多少条hypothesis，知道sample数N，知道宽松程度就可以等到。

如果假设空间是有限的，根据公式推导：当N足够大的时候，可以保证'出错的概率很小，在这种情况下选一个表现最好的假设空间就可以了。

但是如果hypothesis的数量M是无穷那么多个呢？

无限：

回顾：在hypothesis有限的时候，当N足够大的时候，，当找到那么也能说明

但是：

如果样本小的话，我们可以通过

得到Ein和Eout和接近，但是可以选择的hypothesis不多，效果不能保证。

如果样本大的话，我们可能可以选到比较好的hypothesis运用到test set上，但是Ein和Eout的误差就会很大。

但是我们在有限的情况上忽视了一个问题，那就是如果我的hypothesis得出来的bad event是有重叠部分的呢，那么我的一定小于。

我能不能找出一个去代替M呢？

举个例子：

在中，我的，如果问题是binary classification，那么我可以有无数条线去得出x1是圈圈还是叉叉，但是x1就只有两种结果，要么就是圈圈，要么就是叉叉。

这么一说，我们就可以把多个假设集合在x1这个点的分类，把他们归成两类：一类是把x1划分为圈；一类是把x1划分为叉。

用这种方法，我们还可以推出

当N=2：

。

当N=3（这里只是最大的可能划分类，不等于所有三个点都可以划成8类，如果三个点在同一条直线上就只有6类了）：

根据上面的推论，我们可以得出右图的关系。而我们可以用effective（N）去代替M

通过binary classification的例子，我们找到了替代M的方式，即无限缩减为有限了。

我们把这种分类称之为Dichotomies: Mini-hypotheses

我们可以用dicotomies H来代替hypothesis H。

接下来我们定义一个Growth Function：

Growth Function的意思就是：在所有N个点的中，找出能使dichotomies最大的N个点。（提示一下，就好像刚刚binary classification，当N=3，不一定所有N=3都可以把hypothesis归成8类，但是我们把8这个最大值作为对应的Growth function中N=3对应的值）。

这样，只要保证这个N个点能产生的Growth Function值最大，记为mH(N):m就可以取代M；N表示与样本点的数量有关。

不过我们可以从这些总结出来的结果看，有一些是多项式，一些是指数。前者的效果肯定是可以的，但是后者，当N越大，上限也会增得很快。

这里我们就要引入一个定义：Break Point。以binary classification来说，2的N次幂确实是upper bound；但是如果N大于等于4，显然mH(4)=14,无法达到16。这里的'N=4'就是Break Point 。

猜你喜欢

转载自blog.csdn.net/chocolate_chuqi/article/details/78424921

Feasibility of Learning & Training versus Test（林轩田-机器学习）

林轩田机器学习基石笔记4—Feasibility of Learning

台湾大学林轩田机器学习基石课程学习笔记4 -- Feasibility of Learning

台湾大学林轩田机器学习基石课程学习笔记5 -- Training versus Testing

【台大林轩田《机器学习基石》笔记】Lecture 4——Feasibility of Learning

【台大林轩田《机器学习基石》笔记】Lecture 5——Training versus Testing

机器学习基石 Lecture4: Feasibility of Learning

机器学习基石笔记：04 Feasibility of Learning

04 Feasibility of Learning

机器学习基石 Lecture5: Training versus Testing

机器学习基石笔记：05 Training versus Testing

05 Training versus Testing

林轩田机器学习基石（Machine Learning Foundation）

林轩田机器学习基石(1)：The Learning Problem

【机器学习笔记四】-----Feasibility of learning（机器学习的可能性）

4）机器学习基石笔记 Lecture4：Feasibility of Learning

【机器学习笔记五】------Training versus Testing（训练与测试过程）

林轩田机器学习基石3：机器学习类型划分(Types of Learning)

（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem

林轩田机器学习基石2：学习回答Yes/No（Learning to Answer Yes/No）

林轩田-机器学习基石学习笔记2-Applications of Machine Learning?

林轩田机器学习基石课程学习笔记1 -- The Learning Problem

机器学习基石（台湾大学林轩田），Lecture 2: Learning to Answer Yes/No

林轩田机器学习技法课程第十三讲-Deep Learning

林轩田机器学习基石笔记1—The Learning Problem

林轩田机器学习基石笔记3—Types of Learning

林轩田机器学习基石（Machine Learning Foundations）笔记（二）

林轩田机器学习技法（Machine Learning Techniques）笔记（六 ~ 十六）

林轩田机器学习技法（Machine Learning Techniques）笔记（五）

林轩田机器学习技法（Machine Learning Techniques）笔记（四）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)