学界 | 当前机器学习成果真的可靠吗？伯克利&MIT新研究质疑基准测试集 - 代码天地

学界 | 当前机器学习成果真的可靠吗？伯克利&MIT新研究质疑基准测试集

企业开发 2018-06-07 15:17:15 阅读次数: 2

近日，伯克利和MIT研究者发布的一篇名为《Do CIFAR-10 Classifiers Generalize to CIFAR-10?》的新论文提出了学界一个尖锐的问题：包括CIFAR10在内的知名基准测试集，都存在验证集过拟合问题。

这一论文引起了Keras之父François Chollet的关注与力挺，关于数据集的讨论在推特上一发不可收拾，包括Gary Marcus和François都连发数条推特对此问题进行了讨论。

在连续20几个小时的连续发推中，François Chollet肯定了这篇论文带来对过测试集拟合问题的思考，但是也提出了一些论文中不恰当的地方。

最后，大神也提出了自己的建议，通过高熵验证过程(如k-fold验证)来解决这个问题。

让我们先来看看这篇论文到底说了什么。

bc1ff8dfffa237ba84ed1249b26f24775b73b157

这篇论文创建了一组真正“未出现过”的同类图像来测量 CIFAR-10 分类器的准确率，以验证当前的测试集是否会带来过拟合风险。

论文中称，我们通常只能获取具备同样分布的有限新数据。现在大家普遍接受在算法和模型设计过程中多次重用同样的测试集。但显而易见的是，当前的研究方法论忽视了一个关键假设：分类器与测试集应该独立存在。

这种不独立带来了显而易见的威胁——研究社区可能会设计出只在特定测试集上性能良好，但无法泛化至新数据的模型。

大数据文摘微信公众号后台回复"过拟合"下载本篇论文

显而易见，目前深度学习领域的很多“标题党论文”，都存在验证集过拟合问题，包括CIFAR10在内的知名基准测试集。

猜你喜欢

转载自my.oschina.net/u/3611008/blog/1825986

学界 | 当前机器学习成果真的可靠吗？伯克利&MIT新研究质疑基准测试集

学界 | 伯克利最新研究：用算法解决算法偏差？公平机器学习的延迟影响

深度学习学界业界进展调研

大神回归学界：何恺明宣布加入 MIT

学界 | MIT最新：机器学习首次模仿大脑处理声音，能辩歌词和歌曲分类

医学界新突破！通过机器学习技术可准确地预测肾脏生存时间

谷歌量子计算突破引爆学界，作者亲自回应质疑，国内专家点评

学界 | 不！机器学习才不只是统计学的美化！

AIQ |【学界】机器学习、数据科学如何进阶成为大神？

一直想指出的学界弊病：双重差分法到事件研究法的滥用

轰动学界的Nature重磅进展：生信研究迎来史诗级大爆发

学界 | 马里兰大学研究：人脑神经网络的动态变化和声音感知

科普文章：会议论文VS期刊论文，两者有何区别？学界的认可度两者一致吗？

学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ，在回归与分类任务中表现超群

李飞飞：我更像物理学界的科学家，而不是工程师｜深度学习崛起十年

【人脸检测】学界 | 中科院自动化研究所提出 FaceBoxes：实时、高准确率的 CPU 面部检测器【人脸检测】学界 | 中科院自动化研究所提出 FaceBoxes：实时、高准确率的 CPU 面部检测器

经济学界如何看待比特币

谈逻辑与数学界线之淡化

通过代码分析那个引发的学界震动的Python脚本BUG

「AI 大神」何恺明将从Facebook回归学界

"AI+"进入科学界：人工智能将主导原子世界的科学发现进程

由日本发明人造肝脏看中国的医学界

学界 | 为什么数据科学家都钟情于最常见的正态分布？

学界 | CVPR 2018颁布五大奖项，何恺明获年轻学者奖

“数学界的诺贝尔奖”出炉，4人获奖

薛定谔的猫跳进了生物学界化学家:没有我可能办不到

谈逻辑与数学界线之淡化（修正版

世界欠他一个诺奖，是科学界的常识

突发！腾讯AI Lab主任张潼离职，或将返回学界

马腾宇：AI 学界一颗冉冉升起的新星

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)