【NeurIPS 官方分析】投稿量暴增,我们能从NeurIPS 2019的数据中学到什么?

(本文翻译自NeurIPS2019官方的数据分析——“What we learned from NeurIPS 2019 data”,Alina Beygelzimer, Emily Fox, Florence d’Alché-Buc, Hugo Larochelle ,NeurIPS 2019 Program Chairs )

点此进入“原文下载地址”

在过去的五年中,NeurIPS论文投稿数量增加了四倍。今年,我们共收到了6743篇投稿,经过筛选最终有效投稿降为6614篇, 有4500多个评审人撰写了超过20000篇评审意见。今年NeurIPS的录取率为21.6%,共录取了1428篇论文。鉴于论文数量的急剧增长,我们决定看看,从这些数据中能得出什么结论。这篇文章的目的不是对新的审稿体系提出建议,而是为了告知和促进大家对于此话题的讨论。

No.1 NeurIPS群体剖析

NeurIPS2019共收到15920位作者提交的论文。(我们做了仔细的分析,试图合并个人资料以便在这项分析中将每个人保留为一个实体。)有四分之三的作者并不在会议委员会的邀请名单上,无论是评审员、ACs还是SACs。余下的四分之一作者,略超过70%的人接受了我们的邀请加入了评审委员会,这是一个好兆头。此外,大多数评审者也提交了论文,这也是一个好兆头。

12121.png

那么,NeurIPS有搭便车的问题吗?这并不是很重要。如上表所示,只有约四分之一的人没有接受对NeurIPS2019年论文审稿的邀请。然而,他们中大约有10%的作者提交了5篇或者更多的论文。共有769篇论文(在6,743篇论文中),至少有一位作者受邀担任委员会成员,但没有任何受邀的作者参与审稿过程。

现在,让我们仔细看一看那些不在委员会邀请名单上的作者(四分之三)。这些作者中大约有40%的作者没有与邀请名单上的任何人共同撰写过一篇论文,而这一类别的论文录取率(占所有投稿的近30%)是最低的,只有十分之一左右。有趣的是,在投稿阶段对这些论文的最初兴趣与其他类别的论文一样强烈。在本文的后面,我们会提到这一点。

正如预期的那样,受邀担任更高职务的学者提交了更多论文,并且平均接受率更高。下表给出了ACs的统计数据。SACs的人数略高——每个SAC提交了5.24篇论文,接收率为34.78%。

12122.jpg

来自学术界的审稿者与ACs的比例约为70%。

共有85位作者提交了至少10篇文章,其中只有6人是女性(7%)。我们初步估计的提交论文的女性作者的总体比例为13%,几乎是多篇论文提交者的两倍。提交多篇论文作者的平均接收率为24.7%,略高于所有提交者21.6%的平均接收率。

最后,与2018年相比各主题领域的录取率情况见下图。该图按照每个领域的提交数量进行排序(有关按地区提交的图,请参见下文)。对于我们所看到的前四个主题领域和后四个主题领域之间(统计上显著的)接收率的差异,可解释的是提交最多主题领域的论文,也会存在更大比例的低质量论文,这并不奇怪。

12123.jpg

最后,与2018年相比,按照主题领域划分的论文录取率如下图所示。

12124.jpg

No.2 关于减少或限制论文提交数量的推测性实验

关于如何改变NeurIPS的审稿机制,以更好地应对不断增长的论文提交数量的讨论很多。让我们看看,利用NeurIPS 2019年的数据来预估这些提议的后果。

1.编辑筛选

作为一项实验,我们想要衡量AC的能力,以便在看到评审意见之前就能预估其指定的论文将会被拒收(例如,论文的新颖性不足或学术水平不足)。问题是NeurIPS是否应考虑允许AC拒绝未经审阅的投稿,以减轻审稿者的负担——这种编辑筛选机制是顶级期刊的常见做法。

我们要求每个AC提供他们认为在分配的评审论文中排在最后25%的论文(大多数AC提交了5个内容),以及他们对每次评审的信心。我们从50%的AC中收到了808条拒绝建议。

下表显示了在不同信赖水平下建议拒绝的论文数量,以及相应的准确性——审查后实际拒绝的百分比。阈值为5(最后一行)似乎是可靠的,但提交的数量并没有明显减少。即使有人认为只有50%的AC参与了此测试,将阈值设为5,仍可消除对所有提交中仅<4%的内容进行审核的需要。

12125.jpg

2.限制提交的数量

另一个常见的提议是限制作者可以提交的论文数量。AAAI会议甚至提出了2020年每位作者最多可提交15篇论文(从他们论文征集要求可见)。

下图展示了允许每个人共同创作k篇提交论文(X轴)将如何影响NeurIPS 2019的提交总数。Y轴绘制了提交量减少的结果。出于这个实验目的的考虑-由于我们不知道每个作者在这种要求下会选择保留哪些提交。我们让每位作者具有事后保留他们可接受的提交内容的意愿,最多随机允许k个。如果提交人有任何更多的提交打算,则填写他们随机选择的被拒绝的提交。

12126.png

如果将提交数量限制在15篇(AAAI-2020采用),则只会减少<100篇,占总数的1.5%。如果将提交量限制在10篇,则会减少总量的4.3%(省去约850条评审意见),而不会对结果产生重大影响。

总而言之,也许编辑筛选和封顶提交的某些组合办法可以减少论文提交量降低产生的影响。但在实施之前,需要更多地考虑这样做的方法。

3.供需评估

另一个建议是使用市场体系来控制评审,仅接收那些引起审稿人足够兴趣的投稿。

以下分析显示,评分-当前的评审方式-不能很好地预测接收程度。接收的论文平均有5.4位审稿人对其进行评分(来自AC的0.72个评分),相比之下,被拒绝的论文只有5.1位审稿人(来自ACs的0.64个评分)。

12127.jpg

下表按照作者类别进行了分类,显示出渴望评审在各个类别之间的比例基本持平。

12128.jpg

另一方面,这表明所有好的论文都有很好地被发现机会(与Yann LeCun在本文中的建议一致)。

4.公开审查提交的论文

大多数提交论文(54%)都会发布在arXiv上;其中21%的提交论文至少被一名审稿人看到。后一类的录取率为34%,明显高于21.6%的平均录取率。相比之下,未公布论文的接收率为17%。

不幸的是,很难理清其因果关系。一个明显的可能性是发表在arXiv上的论文质量更高,因为作者认为它们是可以公开分享的。另一个原因反映了单盲审查存在偏见,即知名作者更有可能阅读到他们在arXiv的论文,又有可能偏向对其工作进行积极评价。

No.3 审稿质量

1.审稿人的分配

客观衡量评审质量好坏的标准是什么?有人提议,论文中是否引用了指定审阅者的论文。那么,NeurIPS 2019年提交的论文中,至少有一位被引用的审稿人的比例是多少呢? 

我们从提交的论文中提取了其参考文献以找出答案。事实证明,只有不到三分之一的论文,被论文中引用到的审稿人评审过。正如预期的那样,在提交中被引用确实与评审的可信度相关。NeurIPS评审的平均可信度为3.75,所有评审中大约一半被评为4分(对评审有信心,但不是绝对确定)。被引用审稿人的平均可信度略高于4分,其中接近30%的评价为5分(绝对认可评审,非常熟悉相关工作)-几乎是一般评审人的两倍。

我们当然希望看到更高的数字,但40.6%的投稿人至少有一次评级为5的分数,94.7%的投稿人至少有一次可信度评级为4的评论。

为了改进工作分配,我们与CMT进行合作,允许ACs招募外部审稿人处理他们正在审的特定论文。如果AC在常规资源库中找不到合适的人选,他们可以向外部审阅者发送特定论文的邀请。超过40%的ACs使用了该功能,发送了近400个邀请(其中近80%被接受)。ACs还可以手动调整自动生成的论文分配。虽然大多数ACs基本上保留了他们收到的评分,但10%的ACs至少重新分配了三分之一的论文——平均每处理一篇论文至少要有一个审稿人。

如果ACs手工挑选审稿人,他们是否对审稿人更满意呢?答案是肯定的,尽管这些外部评论员大多是初级的。被评为“超出预期”的评审比例增加了三分之一,而被评为“未达到预期”的评审比例在人工挑选的调查中下降了一半以上。

2.评审长短的分布

鉴于经常有人抱怨NeurIPS过于简短的评审意见,我们研究了NeurIPS 2019、ICLR 2019和COLT 2019的评审意见的长度分布。

可以预期人工生成的文本长度将呈对数正态分布。但是有趣的是,在如此不同的会议和不同的审稿形式之间,这个参数是如此的匹配。

12129.jpg

3.反驳、讨论和接受度统计

作为撰写反驳的作者,您可能想知道论文的初始评分以及论文被接受的概率。你的反驳改变结果的可能性有多大?

大约20%的初始评分在讨论阶段发生了变化,大约50%的投稿中至少有一个评分发生了变化。在作出决定时,平均差异从1.27(反驳前)下降到0.89(通知时间)。

121210.png

我们还比较了2018年和2019年之间的以下参与度指标:讨论期间每篇论文的平均评论数、平均参与人数、讨论帖子中的平均角色数。所有的结果都上升了,表明在审查过程的这一部分有了更全面的参与。最显著的是,每篇论文讨论主题的平均长度增加了10%。

No.4 总结

尽管数据对很多问题仍然没有给出答案,但我们注意到以下几点问题:

1.NeurIPS没有搭免费车的问题:没有受邀参与审稿的作者,提交的论文相对也较少。

2.文中的数据图表并没有表明,在审稿人全面评审论文前应如何快速地去过滤一些质量不高的论文,ACs的作用就是前期去筛选一些论文,根据他们的淘汰方法,在没有重大决策错误发生的情况下,对审稿人的工作量没有很大的影响。同时,也没有一个很强烈的信号表明,审稿人对特定的论文表示出强烈的渴望去评审。

3.没有明确的证据表明,以审稿意见的长度来判定NeurIPS评审质量的高低:在评审长度方面,NeurIPS与其他规模较小的会议没有太大的不同。

4.反驳、讨论期参与的影响:总体参与度似乎高于2018年。

虽然这不会影响我们讨论新审稿模式的热情,但希望这篇文章能有助于大家进一步集中讨论这个话题。

往期回顾:

【NeurIPS100】NeurIPS2019 七篇获奖论文揭晓 入选论文深度分析!

NeurIPS十年高引学者TOP100榜单发布!这些大牛值得膜拜!

【NeurIPS100】AMiner参会攻略:13000人的NeurIPS大会,如何参加更高效?

猜你喜欢

转载自blog.csdn.net/AMiner2006/article/details/103509869