Facebook最新研究:无需额外训练AI,即可加速NLP任务

作者 | KYLE WIGGERS

译者 | Kolen

出品 | AI科技大本营(ID:rgznai100)

 

自然语言模型通常要解决两个难题:将句子前缀映射到固定大小的表示形式,并使用这些表示形式来预测文本中的下一个单词。

在最近的一篇论文(https://arxiv.org/pdf/1911.00172.pdf)中,Facebook AI Research的研究人员宣称,第一个问题——映射问题——可能比预测问题更容易,他们在具有“最近邻”检索机制的语言模型上建立了一个假设来扩充语言模型。他们称,它可以记住罕见的模式,并且无需额外的培训即可达到最新的复杂性评分(词汇和语法多样性的衡量标准)。

正如研究人员所解释的那样,语言模型将概率分配给单词序列,从而使它们根据标记(例如单词)的上下文序列来估计目标标记的分布(发生不同可能结果的概率)。他们所提出的方法KNN-LM将上下文映射到由预先训练的语言模型计算的固定长度的数学表示形式。给定一个训练示例,定义了一个键值对,其中键是上下文的数学表示,而值是目标单词。

在测试时,KNN-LM获取输入的上下文,并且在接下来的单词和上下文表上生成下一个单词的输出分布和上下文表示。它根据一个距离函数来检索其最近邻,即此时它计算邻域上的分布,同时汇总每个词汇项在检索到的目标中所有出现的概率。

研究人员注意到,KNN-LM与产生固定大小的上下文表示的任何语言模型都兼容。在这项研究中,这使我们能够在基于Wikipedia文章的1.03亿个分词组成的数据集上训练基于Transformer的模型,其中25万个分词保留用于开发和测试。

在实验中,KNN-LM在测试时“显著”优于基线,该团队将其归因于KNN-LM更倾向于学习具有隐含相似性概念的上下文表示函数。KNN-LM增加了一些计算开销-大约需要两个小时才能在单个处理器上为1.03亿个条目构建缓存,而运行验证集大约需要25分钟的时间。但是该团队指出,将模型并行化是“微不足道的”,而且不需要基于GPU来训练模型。

该研究的共同作者写道:“一般来说,我们发现KNN-LM最有用的例子通常包含罕见的模式,例子包括事实知识、命名实体和训练集中几乎重复的句子。在这些情况下,为训练实例和测试实例分配相似的表示形式……比隐式记住模型参数中的下一个单词似乎更容易解决问题。”

原文链接:

https://venturebeat.com/2020/02/19/facebooks-ai-speeds-up-natural-language-processing-without-additional-training/

【end】

精彩推荐

CSDNx巨杉大学联合认证学习,免费开放!“分布式数据库集训营”帮助您从零开始学习分布式数据库、分布式架构知识,现在加入活动,完成课程还将专属礼品。快来参加吧~

了解详情:http://www.sequoiadb.com/cn/university-camp

推荐阅读

    你点的每个“在看”,我都认真当成了AI

发布了1329 篇原创文章 · 获赞 1万+ · 访问量 584万+

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/104438144