机器学习基石（林轩田）第十五章笔记与感悟总结 - 代码天地

机器学习基石（林轩田）第十五章笔记与感悟总结

其他 2018-05-29 14:17:20 阅读次数: 0

15.1 Validation - Model Selection Problem

我们为了解决过拟合的问题，我们提出了regularization。

我们不只关注Ein，而是在Ein上面加上一个regularizer，一起做minimize。

这样可以有效的减小model complexity

我们面临着很多的选择，之间的组合会产生组合爆炸的。

输入：各种g和演算法。

输出：最好的那个模型，能让Eout变小。

表示选择了最好的那个模型。

显然，不能使用视觉的方法。

如果只考虑Ein的话，认为Ein越小越好，是不对的。

因为高维的hypothesis肯定要比低维的好； =0（忽视regularizer项）一定要比！=0要好

而且，我们知道Hypothesis的大小决定了模型的复杂度。

然后我们想，干脆直接用一些测试数据上跑一遍模型，哪个模型好久选哪个。

根据公式可以保障。

但是提前用测试资料来验证自己的模型。属于提前偷看试卷，然后再答题。属于自欺欺人的一种做法，因此不适宜。

入手的数据要分成训练集和测试集。能够使表现介于Ein 和 Etest。

15.2 Validation - Validation

随机地从样本种抽出K个样本，那么validation set种的分布也是P(x, y)

原来的有两个角色，一个是算Ein，另一个是丢到演算法里得到g。这两种角色会相互“污染”。

而通过将数据分成两个角色，可以避免“污染”。

很直观，将两种角色分开了。

因为我们将数据分成了两个部分，因此，当我们找到最好的g时，

最后再用全部的数据再训练一下。

上面的- 表示用的训练集（数据量少）。

表示只考虑Ein，表示cheating，表示用训练集，表示用训练集，但是最后再用全部的数据再训练一次。

为什么？因为用的数据少了。

15.3 Validation - Leave-one-out cross validation

我们上一节既要k大，又要k小。我们就先假设k=1

因为k=1，表示只留下了一笔资料，因此我们用（n）表示第n笔资料。

表示在第n笔资料上的错误。

我们能不能用来告诉我们Eout有多好呢？一笔可能不够，我们就一笔一笔的算，然后取平均值。

当我们用线性的模型，和用常数的模型。

原本是用validation error，现在就可以用错误来表示。

表示期望。

注意结论：能够用来衡量

横轴表示多项式的维数，纵轴表示错误。

结论是表现（更平滑，且避免了Overfitting）的比要好。

15.4 Validation - V-Fold cross validation

现在来讨论的可能的错误是什么。

Eout每一轮都要用到N-1，计算量太大。除非有些特殊的场合，例如linear regression有closed-form形式，能很快算出来。

其次，的曲线跳动很大。我们想要的是稳定的曲线。

我们想通过分组，分成4组。这样就不用做1000次的力气。

V-Fold 可以使曲线比较平滑一些。

猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80491287

机器学习基石（林轩田）第十五章笔记与感悟总结

机器学习基石（林轩田）第十二章笔记与感悟总结

机器学习基石（林轩田）第十章笔记与感悟总结

机器学习基石（林轩田）第八章笔记与感悟总结

机器学习基石（林轩田）第七章笔记与感悟总结

机器学习基石（林轩田）第六章笔记与感悟总结

机器学习基石（林轩田）第四章笔记与感悟总结

机器学习基石（林轩田）第三章笔记与感悟总结

机器学习基石（林轩田）第九章笔记与感悟总结

机器学习基石（林轩田）第五章笔记与感悟总结

机器学习基石（林轩田）第一章笔记与感悟总结

机器学习基石（林轩田）第二章笔记与感悟总结

机器学习基石（林轩田）第十四章笔记与感悟总结

机器学习基石（林轩田）第十三章笔记与感悟总结

机器学习基石（林轩田）第十一章笔记与感悟总结

林轩田机器学习基石笔记（第10-13节）——机器学习的分类

机器学习基石(林轩田)学习笔记

机器学习基石-林轩田-课程总结

《机器学习基石》——林轩田（笔记一）

机器学习基石-林轩田第五讲笔记

林轩田机器学习基石笔记（第9节）——Pocket AIgorithm（口袋算法）

林轩田机器学习基石笔记（第8节）——PLA循环停止条件的探讨

林轩田机器学习基石笔记（第7节）——PLA算法

林轩田机器学习基石笔记（第4节）

林轩田机器学习基石笔记（第1节）

林轩田机器学习基石课程个人笔记-第十讲

林轩田机器学习基石笔记（第16节）——概率论与机器学习建立连接

林轩田机器学习基石笔记（第18-19节）——把无限hypothesis变为有限

林轩田机器学习基石 - 学习笔记4 - 机器学习的可行性

林轩田《机器学习基石》资源汇总（视频+学习笔记+书）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)