西瓜书第二章--模型评估与选择

其他 2020-03-05 01:00:56 阅读次数: 0

2.1 经验误差与过拟合

错误率：错分样本的占比

精度：分对样本的占比，与错误率是互补的。

误差：样本真实输出与预测输出之间的差异。学习器在训练集上的误差称为训练误差或经验误差，在新样本上的误差称为泛化误差。

由于事先并不知道新样本的特征，我们只能努力使经验误差最小化；很多时候虽然能在训练集上做到分类错误率为零，但多数情况下这样的学习器并不好

过拟合：学习器把训练样本学习的“太好”，将训练样本本身的特点当做所有样本的一般性质，导致泛化性能下降；

解决措施：1.优化目标加正则项；2.early stop；

欠拟合：对训练样本的一般性质没有学习好

解决措施：1.决策树:拓展分支； 2.神经网络：增加训练轮数；具体表现如下图所示：

2.2 评估方法

前提：现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择。

我们假设测试集是从样本真实分布中独立采样获得，将测试集上的“测试误差”作为泛化误差的近似，所以测试集要和训练集中的样本尽量互斥。通常将包含m个样本的数据集分为测试集T和训练集S，下面介绍几种常用的方法：

留出法：

交叉验证法：

留一法的意思就是将每个样本都变成一个独立的子集，这样取一个留剩下所有个的做法就是留一法。

自助法：

解释一下大概1/3概率的来源：

这里的N相当于上文提到的 m ，每次不放回地抽样N个样本，最后取极限没有被抽到的样本的数目即使上述式子取极限。

2.3 性能度量

2.3.1定义：对学习器的泛化性能进行评估，不仅需要有效可行的实验方法还需要有衡量模型泛化能力的评价标准，此评价标准就是性能度量。

给定样例集：
，其中y_i是示例x_i 的真实标记，我们的目标就是把学习器的预测结果f(x)与真实标记y进行比较。

2.3.2查准率与查全率：

其中TP的意思是True Positive ，FN是Flase Negative，其余的类推。(混淆矩阵请自行百度)

查准率P的意思是在预测结果中挑到真确的比例，类似于小圈子里面的内推，这样P、R的意思就很容易理解了。而后根据学习器的预测结果按正例可能性大小对样例进行排序，并逐个把样本作为正例进行预测，则可以得到查准率-查全率曲线，简称“P-R曲线”

平衡点(BEP)是曲线上“查准率=查全率”时的取值，可用来用于度量P-R曲线有交叉的分类器性能高低，我们的主观当然是P和R越大越好，所以说若一个曲线能被另一个完全包住则说明被包住的性能没有外面的优越，比如优越性能排行：A>B>C，在很多情况下，一般是比较P-R曲线的面积来判断优越性，面积越大则越好。但是这个面积值又不太容易估算，我们就选择平衡点的值来进行比较，值越大越好。但是BEP又过于简单了，于是采用F1度量：

采用调和平均的定义:

F1即把角标贝塔等于1即可，通过化简：

在西瓜书上还有宏的查准率和查全率的概念，其实就是取了一个平均罢了。这里就不急于赘述了，有兴趣可以自行看书。

2.3.3ROC与AUC

定义：类似P-R曲线，根据学习器的预测结果对样例排序，并逐个作为正例进行预测，以“假正例率”为横轴，“真正例率”为纵轴，可得到ROC曲线,全称“受试者工作特征”.

其中ROC图的绘制步骤如下：

AUC:即ROC下的面积：

2.3.4代价敏感错误率与代价曲线：

背景：现实任务中不同类型的错误所造成的后果很可能不同，为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”。

在非均等代价下，不再最小化错误次数，而是最小化“总体代价”，则“代价敏感”错误率相应的为：

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可以。代价曲线的解释如下：

绘制方法：

2.4比较检验

由于测试性能并不等于泛化性能，测试性能随测试集的变化而变化，而且很多机器学习算法具有一定的随机性。直接选取的评估方法往往与现实不太贴切。假设检验为学习器性能比较提供了重要依据。

2.4.1 二项检验

同样，还有 t 检验以及交叉验证 t 检验、McNemar检验、Friedman检验、Nemynyi后续检验、最后再将一个偏差与方差，这个没什么好讲的老套公式，这里给出一个前两个与泛化性能的关系图：

3 阅读材料

猜你喜欢

转载自www.cnblogs.com/icetree/p/12404252.html

【西瓜书笔记】——第二章：模型评估与选择

西瓜书第二章--模型评估与选择

ZiSeoi 的西瓜书笔记（二）：第二章模型评估与选择

西瓜书阅读笔记笔记：第二章模型评估与选择

周志华《机器学习》西瓜书课后习题解答——第二章模型评估与选择

周志华西瓜书《机器学习笔记》学习笔记第二章《模型的评估与选择》

《机器学习》周志华(西瓜书)学习笔记第二章模型评估与选择

机器学习（西瓜书）笔记第二章模型评估与选择

机器学习西瓜书——第二章模型评估与选择

【机器学习】第二章-模型评估与选择-西瓜书笔记

周志华《机器学习》西瓜书小白Python学习笔记（一） ———— 第一章绪论 & 第二章模型评估与选择

第二章模型评估与选择

西瓜书第二章笔记

【学习笔记】西瓜书机器学习之第二章模型评估与选择及统计假设检验基础

模型评估与选择机器学习第二章

西瓜书第2章模型评估与选择

西瓜书读书笔记（二）-模型评估与选择

周志华《机器学习》第二章模型评估与选择——模型评估方法

西瓜书第二章学习笔记

西瓜书总结—模型评估与选择

模型评估与选择(西瓜书笔记)

机器学习与数据挖掘-作业二-第二章模型评估与选择

【机器学习】周志华读书笔记第二章模型评估与选择

读书笔记-《机器学习》第二章：模型评估与选择

小白学习机器学习---第二章:模型评估与选择（+ROC分析）

机器学习(周志华) 参考答案第二章模型评估与选择

读书笔记机器学习（周志华）第二章模型评估与选择

MLb-002 43《机器学习》周志华第二章：模型评估与选择

周志华《机器学习》第二章模型评估与选择笔记及习题解答

机器学习复习笔记2 （第二章模型选择与评估）

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)