【机器学习（李宏毅）】三、Bias and Variance - 代码天地

【机器学习（李宏毅）】三、Bias and Variance

其他 2018-11-01 01:31:09 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/abc8730866/article/details/70260188

本讲核心问题：Where does the error come from？

Review：

更复杂的模型不一定在测试集上有更好的表现
误差由偏差“bias”导致
误差由方差“variance”导致

这里写图片描述

Estimator：

$\hat{f}$ 是计算pokemon真正的函数，只有Niantic公司知道
从训练集上，我们得出 $f^{*}$ ， $f^{*}$ 是 $\hat{f}$ 的一个估计
故像射击一样，靶心为 $\hat{f}$ ， $f^{*}$ 是我们射中的地方，会由于“bias”和“variance”导致射偏。

这里写图片描述

Bias and Variance of Estimator：

估测均值 $\mu$ ：用m来估计均值 $\mu$ 是unbiased的（注意理解下其中公式）

这里写图片描述

这里写图片描述

估计方差 $\sigma ^{2}$ :用 $s^{2}$ 来估计 $\sigma ^{2}$ 是biased的（同样注意理解其中公式）

6？？

形象解释Bias和Variance

就像射击一样，你瞄准点同靶心的距离就是Bias；你实际射在靶心上的位置与你瞄准点的距离就是Variance。

这里写图片描述

Parallel Universes

搜集多个训练集

这里写图片描述

在所有训练集上，用相同的模型，得到不同的 $f^{*}$

这里写图片描述

三种模型，每种模型在一百个数据集上得到的 $f^{*}$ 的情况

Variance

较简单的模型在受不同样本的影响较小，有更小的方差。(聚集在靶上瞄准的位置)
较复杂模型有较大的方差。（分布在靶心周围，分散的很开）

这里写图片描述

Bias

用 $f^{*}$ 的期望去衡量Bias，用 $\bar{f}$ 与 $\hat{f}$ 的近似程度来衡量偏差
大的偏差（见图）：瞄的就不准，偏靶心一段距离。
小的偏差（见图）：瞄的准，围绕靶心。

这里写图片描述

黑色曲线：假定的 $\hat{f}$ ；
红色曲线：5000个不同数据集下的 $f^{*}$ ；
蓝色曲线：5000个 $f^{*}$ 的平均 $\bar{f}$
三种不同模型，1次、3次、5次。

这里写图片描述
可以看出：

简单模型，大的偏差。（上图： $\bar{f}$ 与 $\hat{f}$ 近似度小；下图：偏离靶心。）
复杂模型，小的偏差。（上图： $\bar{f}$ 与 $\hat{f}$ 很近似；下图：围绕靶心。）

这里写图片描述

Bias vs Variance

随着模型变复杂，Bias导致的error下降；
随着模型变复杂，Variance导致的error上升；
随着模型变复杂，error由下降到上升。
模型较简单时，大的Bias，小的Variance，Underfitting!
模型过于复杂时，小的Bias，大的Variance，Overfitting！

这里写图片描述

What to do with large bias?

诊断：

如果模型甚至不能够拟合训练集，那有大的Bias，Underfitting!
如果模型能够拟合训练集，但是在测试集上有很大的error，那可能有大的Variance，Overfitting！

对于Bias，重新设计模型：

增加更多的特征作为输入；
一个更复杂的模型。

这里写图片描述

What to do with large variance?

更多的data（效果见图）：非常有效，但不是都很实际，因为有可能没有条件搜集更多的data；
正则化（效果见图）

这里写图片描述

Model Selection

通常在Bias和Variance之间有一个权衡；
平衡两种误差，选择一个模型，使得总误差最小；
不该做得事：用三种模型在训练集上训练，得出三种 $f^{*}$ ，分别在自己的测试集上得出error，选择此时error最小的 $f^{*}$ ，然后就把它放在真正的测试集上测试。（下图继续解释为何这样不好，以及该怎样做）

这里写图片描述

以Homework为例，如果用上面的做法，会导致你在真正的测试集上表现很差。（下面会继续介绍正确做法）

这里写图片描述

Cross Validation

将训练集分成两部分，一部分为训练集，另一部分为验证集；
用训练集分别训练三种模型，在验证集上得出error，选取error最小的模型；
用整个原始的训练集，去训练得出来的模型，在测试集上得出error；
在真正的测试集上得出error，这样的话效果好，才是真的好。

不建议做的事：

看到在测试集上（自己的）的效果不好，然后反过来去调整模型。这样做虽然对于人之常情或者发paper来说是不可避免的，但要强调的是：这样做了，也只是在你自己的测试集上的效果好，在真正的测试集上的效果不一定会变好。

这里写图片描述

N-fold Cross Validation

将训练集分成三部分，取其中一份为验证集，有三种组合情况；
用三种模型在这三种情况下进行训练，然后在验证集上得出error，取三种情况下error的均值，均值error最小的情况作为选定的最好的模型；
将选出的模型，用原始的整个训练集训练，然后在测试集上得出error；
在真正的测试集上得出error。

这里写图片描述

课程地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html

猜你喜欢

转载自blog.csdn.net/abc8730866/article/details/70260188

【机器学习（李宏毅）】三、Bias and Variance

李宏毅机器学习笔记-03 Bias and Variance

李宏毅机器学习笔记3-机器学习中的错误来源（bias和variance）

机器学习-Bias-Variance

机器学习系列（三）——误差（error），偏差（bias），方差（variance）

variance与bias

Bias and Variance

机器学习中的Bias,Error,Variance的区别

机器学习中的偏差（Bias）与方差（Variance）

深度学习笔记-偏差(Bias)，方差(variance)

李宏毅机器学习笔记三

学习笔记——机器学习（偏差bias与方差variance）

机器学习中的方差偏差分析（Bias-variance analysis）

【机器学习】：偏差(bias)与方差(variance)、bagging与随机森林(RF)

【机器学习】偏差-方差分解Bias-variance Decomposition

【机器学习】深入理解偏差bias与误差variance

机器学习bias， error ，variance区别和联系

机器学习中的Bias和Variance是指什么

偏差(Bias)和方差(Variance)——机器学习中的模型选择

机器学习3 -- 误差来源（偏差bias和方差variance）

理解机器学习中的偏差（bias）和方差（variance）

Bias和Variance

偏差（Bias）与方差（Variance）

Bias-Variance Tradeoff

偏差bias与偏差variance

Bias 和 Variance的计算

理解 Bias 和 Variance

Error、Bias、Variance

1-bias and variance

李宏毅机器学习——无监督学习(三)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)