SQuad2.0自然语言处理界最重量级的数据集

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_33813365/article/details/84986309

追赶ImageNet ,发力自动问答领域

这个数据集文章展现了着斯坦福做一个自然语言处理的ImageNet的野心,他很可能成为自然语言学术界未来至少一年内最流行的数据集。模型在这个数据集上做出好成绩,可以让自己的文章加分不少,被顶会录取的几率大大增加。如果读者想发顶会,且目前没有明确的研究方向,那么刷这个数据集是一条很好的道路。

于此同时,这个数据集也会为工业界做出贡献。之所以说会为工业界做出贡献,因为自然语言处理的研究风气和图像相比差一些,任务较多,且没有在paper里面附带代码的行业规则,导致很多工作无法重现,甚至有些人会连实验都不做,直接往图和表里面填数造一篇文章。而这个数据集学习了Imagenet,不给测试集,这样你就没法作弊,把代码交上来,我来给你跑,之后把测试集合上的水平评测出来,这样大家都公平,谁也别吹牛,谁也别作弊。此种环境有利于真正大贡献的工作得以浮现,例如Residual Network在去年席卷图像领域,在一个公平的环境下,以比其他对手好很多的效果呈现在了世人的面前。而SQuAD则是斯坦福在自然语言处理上,意图构建一个类似“ImageNet”的测试集合,分数实时在leaderboard上显示。

这就让这个数据集有如下优势:

1.测试出真正的好算法。尤其对于工业界,这个数据集是十分值得关注的,因为他可以告诉大家现在各个算法在“阅读理解”或者说“自动问答”这个任务上的排名。我们可以光看分数排名,就知道世界上哪个算法最好,不会再怀疑是作者做假了还是实现的不对。

2.提供一个阅读理解的大规模数据集。由于之前的阅读理解数据集规模太小或者十分简单,用一个普通的深度学习算法就可以刷到90%度,所以并不能很好的体现不同算法优劣。

纵使SQuAD不会像ImageNet有那么大的影响力,但绝对也会在接下来的几年内对自动问答领域产生深远的影响,并且是各大巨头在自动问答这个领域上的兵家必争之地(IBM已经开始了)。

猜你喜欢

转载自blog.csdn.net/qq_33813365/article/details/84986309
今日推荐