统计学习及监督学习概论（3） - 代码天地

统计学习及监督学习概论（3）

其他 2019-05-18 10:48:05 阅读次数: 0

《统计学习方法》（第二版）1.4 1.5

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

当评估时使用的损失函数给定时，训练误差和测试误差成为学习方法评估的标准。

测试误差反映了学习方法对未知的测试数据集的预测能力（泛化能力¹）。

1.4.2 过拟合与模型选择

当选择的模型复杂度过大时，过拟合现象就会发生。

过拟合是指学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

两种常用的模型选择方法：正则化和交叉验证

1.5 正则化与交叉验证

1.5.1 正则化

如前所示，正则化是结构风险最小化策略的实现，具体参见: https://www.cnblogs.com/angelica-duhurica/p/10884104.html

正则化项可以取不同的形式。

e.g.回归问题：损失函数是平方损失。

正则化项可以是参数向量的\(L2\)范数（向量的长度）
\[ L(w)=\frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda ||w||^2 \]
正则化项可以是参数向量的\(L1\)范数（向量中各个元素绝对值之和）
\[ L(w)=\frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda ||w||_1 \]

各个范数解释参考: https://blog.csdn.net/zouxy09/article/details/24971995

正则化符合奥卡姆剃刀原理：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。

1.5.2 交叉验证

理想：样本数据充足，将其分为训练集（用来训练模型）、验证集（用于模型的选择）、测试集（用于对学习方法的评估）。
实际：样本数据不充足，采用交叉验证。

交叉验证：重复地使用数据，将切分的数据进行组合。

简单交叉验证

随机地将数据分为两部分，分别是训练集和测试集。

S折交叉验证 S-fold cross validation

随机地将数据分为S个互不相交、大小相同的子集，利用S-1个子集作为训练集，余下的1个作为测试集；将S种选择重复进行，选择S次中平均测试误差最小的。

留一交叉验证

S折交叉验证中S=N。适合数据缺乏的情况。N为给定数据集的容量。

测试误差评价泛化能力依赖于测试数据集，很有可能不可靠。↩

猜你喜欢

转载自www.cnblogs.com/angelica-duhurica/p/10884848.html

统计学习及监督学习概论（3）

统计学习及监督学习概论（4）

统计学习及监督学习概论（2）

第 1 章统计学习及监督学习概论

统计学习方法一：统计学习和监督学习概论

【机器学习笔记】《统计学习方法》第一章统计学习及监督学习概论

《统计学习方法》第1章统计学习方法概论 1.2 监督学习

第一章统计学习及监督学习概论

统计学习方法详解之第十三章无监督学习概论

统计学习方法详解之第一章统计方法及监督学习概论

统计学习方法及监督学习

无监督学习概论

统计学习方法读书笔记（一）-统计学习及监督学习概述

统计学习概论笔记

1-统计学习VS 监督学习-机器学习

统计学习方法读书笔记（十三）-无监督学习概述

统计学习方法读书笔记（十二）-监督学习方法总结

李航《统计学习方法》笔记之监督学习Supervised learning

统计学习方法-方法概论(3)

统计学习方法之统计学习概论

数据矿工学习-《统计学习方法》思维导图1.1-监督学习与统计学习三要素

统计学与机器学习关系厘清（以监督学习为例）|10mins入门|《统计学习方法》学习笔记（一）

统计学习方法概论

01 统计学习方法概论

统计学习方法：概论 (一)

统计学习方法概论（1）

统计学习方法__01概论

统计学习方法笔记——概论

统计学习一：1.概论

统计学习方法 | 概论

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)