吴恩达-coursera-机器学习测试题第十章 - 代码天地

吴恩达-coursera-机器学习测试题第十章

其他 2018-08-18 05:24:03 阅读次数: 0

========= 关于偏差、方差以及学习曲线为代表的诊断法 ==========

(一)模型选择Model selection

在评估假设函数时，我们习惯将整个样本按照6:2:2的比例分割：60%训练集training set、20%交叉验证集cross validation set、20%测试集test set，分别用于拟合假设函数、模型选择和预测。

三个集合对应的误差如下图所示(注意没有不使用正则化项)：

基于以上划分，我们有模型选择的三个步骤：

step1.用测试集training set对多个模型(比如直线、二次曲线、三次曲线)进行训练；

step2.用交叉验证集cross validation set验证step1得到的多个假设函数，选择交叉验证集误差最小的模型；

step3.用测试集test set对step2选择的最优模型进行预测；

以线性回归为例，假设你利用线性回归模型最小化代价函数J(θ)求解得到一个假设函数h(x)，如何判断假设函数对样本的拟合结果是好是坏，是不是说所有点都经过(代价函数J最小)一定是最理想的？

或者这样说，给你下图的样本点，你是选择直线、二次曲线、还是三次曲线......作为假设函数去拟合呢？

以下图为例，你的模型选取其实直接关系到最终的拟合结果：

=======================================

欠拟合Underfit || 高偏差High bias

正常拟合Just right || 偏差和方差均较小

过拟合Overfit || 高方差High variance

=======================================

★★★以上问题只是模型选择过程中需要考虑的一点------多项式次数d，实际上，我们还会去考虑这样两个参数：正则化参数λ、样本量m.

下面我将从多项式次数d、正则化参数λ、样本量m这三个量与拟合结果之间的关系做一个简单的概括.

(二)偏差、方差、学习曲线Bias、Variance、Learning curve

1.特征量的度d

还是之前的例子，用二次曲线拟合，训练集和交叉验证集的误差可能都很小；但是你用一条直线去拟合，不管使用多高级的算法去减小代价函数，偏差仍然是很大的，这时候我们就说：多项式次数d过小，导致高偏差、欠拟合；类似的当用10次曲线去拟合，样本点都能经过，对应的代价函数(误差)为0，但是带入交叉验证集你会发现拟合很差，这时候我们说：多项式次数d过大，导致高方差、过拟合。

所以，多项式次数d与训练集、交叉验证集误差的关系如下图：

2.正则化参数λ

正则化参数我们在第三周有介绍到，正则化参数λ越大，对θ惩罚的越厉害,θ->0，假设函数是一条水平线，欠拟合、高偏差；正则化参数越小，相当于正则化的作用越弱，过拟合、高方差。关系如下图所示：

3.样本量m与学习曲线Learning curve

学习曲线是样本量与训练集、交叉验证集误差之间的关系，分为高偏差和高方差两种情况(欠拟合和过拟合)。

①高偏差(欠拟合)：

根据下图右部分分析有，通过增加样本量两者误差都很大，即m的增加对于算法的改进无益。

②高方差(过拟合)：

根据下图右部分分析有，通过增加样本量训练集样本拟合程度很好(过拟合)，训练集误差很小，即m的增加对于算法的改进有一些帮助。

★★★(三)如何决策

综上所述，你会发现有这样的一个结论，就是：

◆训练集误差大、交叉验证集误差也大：欠拟合、高偏差、多项式次数d太小、λ太大；

◆训练集误差小、交叉验证集误差却很大：过拟合、高方差、多项式次数d太大、λ太下、样本量太少。

这就为我们改善机器学习算法提供了依据。

解决高偏差：

尝试获得更多的特征

尝试增加多项式特征

尝试减少归一化程度lamda

训练集误差小、交叉验证集误差却很大：过拟合、高方差、多项式次数d太大、λ太下、样本量太少。

这就为我们改善机器学习算法提供了依据。

训练集误差大、交叉验证集误差也大：欠拟合、高偏差、多项式次数d太小、λ太大；

这个时候有三种方法：

Try getting additional features 增加更多的特征向量

Try adding ploynomail features 增加多项式特征

Try decreasing lamda 减少归一化程度lamda

应该是通过训练集让我们的模型学习得出其参数后，然后对测试集运用该模型

假设你用线性回归来预测房价，你的数据集是按照增加房屋的大小来排序的。在将数据集分割成培训、验证和测试集之前，随机地将数据集打乱，这样我们就不会有所有最小的房子进入培训集，所有最大的房子都进入测试集。这是对的

假设您正在使用多项式特性训练一个逻辑回归分类器，并希望选择使用什么程度多项式（在课堂视频中表示dd）。在对整个培训集中培训分类器之后，您决定使用培训示例的子集作为验证集，这将与从培训集中分离（分离）的验证集一样有效。这不对不能用自己的训练集来，而是应该

一个典型的数据集分割为训练、验证和测试集可能是60%的培训集，20%的验证集和20%的测试集。

猜你喜欢

转载自blog.csdn.net/weixin_40807247/article/details/81333219

吴恩达-coursera-机器学习测试题第十章

吴恩达-coursera-机器学习测试题第十五章-异常检测

吴恩达-coursera-机器学习测试题第十四章-降维

吴恩达-coursera-机器学习测试题第十七章-大规模机器学习

吴恩达-coursera-机器学习测试题第十二章-支持向量机

吴恩达-coursera-机器学习测试题第五周

吴恩达-coursera-机器学习测试题第四周

吴恩达-coursera-机器学习测试题第十六章-推荐系统

吴恩达-coursera-机器学习测试题第十三章-聚类

吴恩达-coursera-机器学习测试题第十一章

吴恩达-coursera-机器学习测试题第十八章-应用实例：图片文字识别

吴恩达机器学习（第十章）---神经网络的反向传播算法

吴恩达-coursera-机器学习-week2

吴恩达-coursera-机器学习-week1

Coursera-吴恩达-机器学习-第十周-测验-Large Scale Machine Learning

第十章使用机器学习的建议-机器学习老师板书-斯坦福吴恩达教授

coursera-斯坦福-机器学习-吴恩达-应用机器学习的建议

第十章-机器学习诊断法深度之眼_吴恩达机器学习作业训练营

吴恩达-coursera-机器学习易错题前三周

Coursera-机器学习（吴恩达）第二周-编程作业

Coursera-机器学习（吴恩达）第三周-编程作业

Coursera-机器学习（吴恩达）第四周-编程作业

coursera-斯坦福-机器学习-吴恩达-笔记week4

Coursera-吴恩达-机器学习-第六周-测验-Machine Learning System Design

Coursera-吴恩达-机器学习-第五周-测验-Neural Networks: Learning

coursera-斯坦福-机器学习-吴恩达-笔记week3

Coursera-吴恩达-机器学习-第二周-测验-Octave/Matlab Tutorial

Coursera-吴恩达-机器学习-第四周-测验-Neural Networks Representation

Coursera-吴恩达-机器学习-第三周-编程作业: Logistic Regression

Coursera-吴恩达-机器学习-第七周-编程作业: Support Vector Machines

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)