机器学习基石（林轩田）第八章笔记与感悟总结 - 代码天地

机器学习基石（林轩田）第八章笔记与感悟总结

其他 2018-05-29 14:17:21 阅读次数: 0

8.1 Noise and Error - Noise and Probabilistic Target

任务：有噪音的情况下如何衡量我们错误

上一节：如果我们的假设空间有有限的dvc ，很大的资料又能找到g使Ein很小的话，那么我们大概就能学到东西。

如果有noise怎么办呢？比如标签标错了，同时既是好的又是坏的，输入信息就有错误等等。

此时的vc bound 还有用嘛？我们进行vc bound 推导用了很多的假设，我们想放宽这些假设。

我们想知道橘色弹珠的比例，x是一个一个的输入，从罐子里某一个几率分布p抽出来。

f的预测和h的预测一不一样，一样记成橘色，不一样记成绿色。

我们想象的一个弹珠是颜色变来变去。但是我们记录抽出来的颜色。即出现了噪音的情况。

我们选择了o的几率比较大，那么那出现0.3的那几次就是噪音

与之前不同的地方在于左上角变成了distribution P(y|x)

pocket 就是在A那边让 Ein 越小越好，那样Eout也会越小越好。只要noise 能被target distribution来做描述的话，我们依旧能做的很好。

①如果提前知道线性可分，那么很有可能就已经知道了w是多少，就没有必要跑PLA了。

②f加上噪音很有可能不是线性可分的了

③类似②

8.2 Noise and Error - Error Measure

我们关心的是三点

1）没有抽样的部分

2）在每个点x上进行衡量

3）取出的和预测的是不是一样的，我们习惯称之为classification

我们通常又称classification error叫做 ‘0/1错误’

我们可以考虑每个点上的错误加起来或者做平均的方式。

我们只要关注每个点上的错误衡量

叫做 pointwise error measure

我们对错误的衡量，影响了我们对g的评价。

用什么的错误衡量决定了最好的f是什么样子的。

8.3 Noise and Error - Algorithm Errpr Measure

错误的衡量哪里来的呢？

是你的话 +1 ，其他的就是-1

会犯两类错误。

超市给折扣，经常来的人如果false reject 的话，会有很大的损失。

损失如右侧的表格

对于CIA 判断员工权限进入的成本。

错误的衡量很难，你不知道是1000倍还是10000倍、

两种替代的方式、

找一些有意义的错误衡量，比如0/1的Ein小或者高斯噪音分布的平方项小的情形。

因为可能会有NPhard问题，因此采用其他有意义的方法。

设计演算法时找到说服自己的方式，或者friendly的方式。

8.4 Noise and Error - Weighted Classification

不同的错误，有不同的权重。

成本、错误，损失矩阵。

我们修改了pocket演算法，那么还能保证能够让Ein 变小？

我们证明了用修改后的pocket演算法依旧能够很好的使Ein变小。

思路就是假设负的数据，复制权重数，那么多倍。这样就可以实现目标。

我们不会真的去复制，因为消耗计算机资源。

因此可以修改读数据的概率，比如有1000倍的概率去修改那些数据。

有系统的将一个方法延伸到另外一个方法上使用叫做reduction

我们加入有个h总是返回+1（好烂的假设），结果代价是0.01，挺小的，我们的电脑觉得挺不错。原因在于数据是不平衡的，因此通过调整权重。

猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80453591

机器学习基石（林轩田）第八章笔记与感悟总结

机器学习基石（林轩田）第十二章笔记与感悟总结

机器学习基石（林轩田）第六章笔记与感悟总结

机器学习基石（林轩田）第五章笔记与感悟总结

机器学习基石（林轩田）第四章笔记与感悟总结

机器学习基石（林轩田）第三章笔记与感悟总结

机器学习基石（林轩田）第十四章笔记与感悟总结

机器学习基石（林轩田）第十五章笔记与感悟总结

机器学习基石（林轩田）第十章笔记与感悟总结

机器学习基石（林轩田）第九章笔记与感悟总结

机器学习基石（林轩田）第七章笔记与感悟总结

机器学习基石（林轩田）第二章笔记与感悟总结

机器学习基石（林轩田）第一章笔记与感悟总结

林轩田机器学习基石课程个人笔记-第八讲

机器学习基石（林轩田）第十三章笔记与感悟总结

机器学习基石（林轩田）第十一章笔记与感悟总结

机器学习基石(林轩田)学习笔记

机器学习基石-林轩田-课程总结

《机器学习基石》——林轩田（笔记一）

机器学习基石-林轩田第五讲笔记

林轩田机器学习基石 - 学习笔记4 - 机器学习的可行性

第八章学习笔记

林轩田机器学习基石笔记（第10-13节）——机器学习的分类

第八章数组的感悟与总结

林轩田《机器学习基石》资源汇总（视频+学习笔记+书）

机器学习基石(林轩田)学习笔记:Lecture 6 & Lecture 7

机器学习基石(林轩田)学习笔记:Lecture 4 & Lecture 5

机器学习基石(林轩田)学习笔记:Lecture 8 & Lecture 9

机器学习基石(林轩田)学习笔记:Lecture 10 & Lecture 11

机器学习基石(林轩田)学习笔记:Lecture 12 & Lecture 13

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)