SQuad2.0自然语言处理界最重量级的数据集 - 代码天地

SQuad2.0自然语言处理界最重量级的数据集

编程语言 2018-12-13 16:54:31 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_33813365/article/details/84986309

追赶ImageNet ，发力自动问答领域

这个数据集文章展现了着斯坦福做一个自然语言处理的ImageNet的野心，他很可能成为自然语言学术界未来至少一年内最流行的数据集。模型在这个数据集上做出好成绩，可以让自己的文章加分不少，被顶会录取的几率大大增加。如果读者想发顶会，且目前没有明确的研究方向，那么刷这个数据集是一条很好的道路。

于此同时，这个数据集也会为工业界做出贡献。之所以说会为工业界做出贡献，因为自然语言处理的研究风气和图像相比差一些，任务较多，且没有在paper里面附带代码的行业规则，导致很多工作无法重现，甚至有些人会连实验都不做，直接往图和表里面填数造一篇文章。而这个数据集学习了Imagenet，不给测试集，这样你就没法作弊，把代码交上来，我来给你跑，之后把测试集合上的水平评测出来，这样大家都公平，谁也别吹牛，谁也别作弊。此种环境有利于真正大贡献的工作得以浮现，例如Residual Network在去年席卷图像领域，在一个公平的环境下，以比其他对手好很多的效果呈现在了世人的面前。而SQuAD则是斯坦福在自然语言处理上，意图构建一个类似“ImageNet”的测试集合，分数实时在leaderboard上显示。

这就让这个数据集有如下优势：

1.测试出真正的好算法。尤其对于工业界，这个数据集是十分值得关注的，因为他可以告诉大家现在各个算法在“阅读理解”或者说“自动问答”这个任务上的排名。我们可以光看分数排名，就知道世界上哪个算法最好，不会再怀疑是作者做假了还是实现的不对。

2.提供一个阅读理解的大规模数据集。由于之前的阅读理解数据集规模太小或者十分简单，用一个普通的深度学习算法就可以刷到90%度，所以并不能很好的体现不同算法优劣。

纵使SQuAD不会像ImageNet有那么大的影响力，但绝对也会在接下来的几年内对自动问答领域产生深远的影响，并且是各大巨头在自动问答这个领域上的兵家必争之地（IBM已经开始了）。

猜你喜欢

转载自blog.csdn.net/qq_33813365/article/details/84986309

SQuad2.0自然语言处理界最重量级的数据集

【自然语言处理（NLP）】基于SQuAD的机器阅读理解

自然语言处理数据集

自然语言处理资料集和公开数据集

自然语言处理相关数据集和语料

分享福利——自然语言处理常用数据集

自然语言处理概述(前沿、数据集、下游任务)

“轻量级”与“重量级”

自然语言处理界的小螺丝钉

达观数据自然语言处理框架

数据挖掘、检索、自然语言处理

数据挖掘之自然语言处理

医学自然语言处理|数据驱动

自然语言处理

自然语言处理①

轻量级框架与重量级框架

java：轻量级与重量级

什么是轻量级、重量级框架

自然语言处理第二期【任务2 - 数据集下载探索模块】

中文自然语言处理医疗、法律等公开数据集整理分享

「自然语言处理(NLP)论文推送」清华大学XQA数据集（含源码）

中文医疗领域自然语言处理相关数据集、经典论文资源蒸馏分享

中文自然语言处理相关的开放任务，数据集，以及当前最佳结果

《TensorFlow+Keras自然语言处理实战》源码数据集开发环境免费下载

【DataSet】常用的自然语言处理方面的人工智能数据集

自然语言处理数据集集锦（持续更新ing...）

【自然语言处理】COLD：中文攻击性言论检测数据集

PyTorch torchtext中带有的自然语言处理数据集

自然语言处理之词性标注集

【自然语言处理】3.1NLTK工具集

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)