我们为你精心整理了2018年最重要的10项AI研究

https://mp.weixin.qq.com/s/kQ0VFSh1HCqPwlKlGyS-QA

作者 | Mariya Mao

译者 | 马卓奇

编辑 | Natalie

AI 前线导读： 想跟上 AI 研究的论文会让人觉得这是徒劳无益的，因为这个领域发展得太迅速了，新论文层出不穷。光算 arXiv.org，AI 领域每周会更新 100 余篇论文，这样算下来一年就有 5000+ 新论文，要将这些论文全部看完无疑是天方夜谭。我们从 2018 年的海量 AI 论文中精心整理出了最重要的 10 篇，如果你没有足够的时间去看成堆的论文，那么你可以从这篇文章开始看起，一睹今年 AI 研究的精华。本文是 AI 前线第 60 篇论文导读，也是对今年 AI 论文的专题小结，希望可以对各位的工作有所帮助。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

我们总结了 2018 年发表的 10 篇最重要的 AI 论文，大致概括了今年机器学习领域的进展。除了这 10 篇，今年还有很多具有突破性进展的论文，但是可以从这 10 篇开始看起。

1. UNIVERSAL LANGUAGE MODEL FINE-TUNING FOR TEXT CLASSIFICATION（文本分类的通用语言模型微调）

https://arxiv.org/abs/1801.06146

论文摘要

归纳式迁移学习对计算机视觉有很大的影响，但是现有的神经语言处理（NLP）方法仍然需要从零开始训练，并且针对 NLP 任务进行修改。我们提出了通用语言模型微调（ULMFiT）方法，一种可以应用于 NLP 中所有任务的迁移学习方法，并介绍了微调语言模型的关键技术。我们的方法在六个文本分类任务上显著优于现有技术，在大多数数据集上减少了 18%-24% 的误差。此外，在仅有 100 个标记示例的情况下，它的表现与训练数据超过 100 倍的情况不相上下。我们开源了预训练模型和代码。

个人总结

作者在这篇论文中提出用预训练模型来解决 NLP 问题。用作者的方法，不需要从头开始训练整个模型，而是只需要微调原始模型。他们的通用语言模型微调（ULMFiT）方法超过了现有的结果，将误差降低了 18%-24%。并且，只需要 100 个标注样本，ULMFiT 就能达到在 10K 个标注样本上训练的模型的效果。

核心思想

为了解决标注数据的缺乏，并使 NLP 分类更加简单和高效，作者提出将迁移学习应用于 NLP 问题。不必从头开始训练模型，而是可以使用类似问题的预训练模型作为基础，然后微调原始模型以解决特定问题。
然而，这种微调应该考虑几个重要因素：
- 由于不同的层捕获不同的信息，因此应该对它们进行不同程度的微调；
- 让学习率先线性增加，然后线性衰减，能够让模型参数更有效的适应特定任务；
- 同时微调所有层可能导致灾难性遗忘。因此，从最后一层开始逐步解冻模型会更好。

主要成果

性能显著超越现有方法：将误差降低了 18%-24%。
仅需要少量标注数据：仅需要 100 个标注样本和 50000 个未标注样本，ULMFiT 就可以达到其他方法在 100 倍数据量上进行训练的效果。

AI 社区评价

预训练的 ImageNet 模型改变了计算机视觉领域。而 ULMFiT 方法对于 NLP 问题具有相同的重要意义。
这种方法可以应用于任何语言中的任何 NLP 任务。来自世界各地的研究者们报告了该方法在多种语言任务中（包括德语、波兰语、印地语、印尼语、汉语和马来语）相对于现有技术有显著提升。

未来研究内容

改进语言模型的预训练和微调。
将这种新方法应用于新的任务和模型（例如，序列标签、自然语言生成、蕴含或问题回答）。

潜在商业应用

ULMFiT 能够更有效地解决各种 NLP 问题：
- 识别垃圾邮件、机器人、攻击性评论；
- 按特定特征对文章分组；
- 对正面和负面评论进行分类；
- 查找相关文件等。
这种方法可能可以应用于序列标记和自然语言生成。

2. OBFUSCATED GRADIENTS GIVE A FALSE SENSE OF SECURITY: CIRCUMVENTING DEFENSES TO ADVERSARIAL EXAMPLES（混淆梯度给人一种虚假的安全感：规避对抗样本的防御）

https://arxiv.org/abs/1802.00420

论文摘要

我们定义了混淆梯度，一种梯度掩模，是一种在防御对抗样本时导致虚假的安全感的现象。虽然导致混淆梯度的防御方法看起来可以防御基于迭代优化的攻击，但我们发现依赖于这种效果的防御是可以规避的。我们描述了表现出这种效果的防御的特征行为，并且对于我们发现的三种类型的混淆梯度，我们研究了对应的攻击技术来克服它。在一个案例研究中，在检查 ICLR 2018 未认证的白盒安全防御时，我们发现混淆梯度是常见的情况，9 种防御中有 7 种依赖于混淆梯度。我们的新攻击在每篇论文的原始威胁模型中，成功地完全避开了 6 种防御，部分避开 1 种防御。

个人总结

研究人员发现，对抗样本的防御方法通常使用混淆梯度，这会产生虚假的安全性，因为这种防御方法可以很容易被规避。这项研究描述了三种对抗混淆梯度的方法，并展示了哪些技术可以规避防御。这些发现可以帮助那些使用基于混淆梯度的防御方法的组织加强他们当前的防御体系。

核心思想

对抗混淆梯度有三种常用方法：
- 破碎梯度是指由防御者有意地 (通过不可微操作) 或无意地 (通过数值不稳定性) 引起的不存在或不正确的梯度；
- 随机梯度是由随机防御引起的；
- 消失 / 爆炸梯度是在极深的神经网络测试中出现的。
梯度出现问题可能有以下几个表现：
- 一步攻击优于迭代攻击；
- 黑盒攻击比白盒攻击更有效；
- 无界攻击未达 100% 成功；
- 随机采样查找对抗实例；
- 增加失真约束不会导致成功率的增加。

主要成果

论文展示了如今使用的大多数防御技术实际上都很脆弱：
- ICLR2018 接收的 9 篇论文中有 7 篇都会引起混淆梯度。
- 作者研究出的新的攻击技术能够成功完全规避 6 种防御方法，部分规避 1 种防御方法。

AI 社区评价

该论文取得了 ICML2018（机器学习顶级会议）的最佳论文奖。
该论文强调了现在科技的优点和缺点。

未来研究内容

用全面的评价方法来建立防御机制，让它们不仅可以防御现有的攻击方法，更可以防御未来可能出现的攻击方法。

潜在商业应用

通过论文提出的方法，组织机构可以鉴别他们的防御机制是否也是基于混淆梯度的，并更换成更鲁棒的防御方法。

3.DEEP CONTEXTUALIZED WORD REPRESENTATIONS（深度语境化词表示）

https://arxiv.org/abs/1802.05365

论文摘要

我们介绍了一种新型的深度语境化的词向量表示，可以对（1）词语用法的复杂特征（例如语法和语义），以及（2）这些用法如何在语言环境中变化（多义性）进行建模。我们的词向量是从深度双向语言模型（biLM）内部状态中学习得到的函数，模型是在大型文本语料库上预训练的。我们发现这些词表示可以很容易地加入现有模型，并且在六个具有挑战性的 NLP 问题（问题回答、文本蕴涵和情感分析）上显著超越现有方法。我们的分析表明揭示预训练网络的内部是至关重要的，能够让下游模型混合不同类型的半监督信号。

个人总结

艾伦人工智能研究所的研究小组介绍了一种新型的深度语境化词向量表示——从语言模型中得到的特征向量（ELMo）。在 ELMo 增强模型中，每个单词都是基于其整体语境进行向量化。在现有的 NLP 系统中添加 ELMo 能够 1) 相对误差减少 6%-20%，2) 训练模型所需的时间显著减少，3) 达到基线性能所需的训练数据显著减少。

核心思想

用在较大语料库上预训练的深度双向语言模型 (biLM) 的内部状态的加权和生成词向量。
使用了来自 biLM 的所有层的表示，因为不同的层可以表示不同类型的信息。
基于字符构建 ELMo 的词向量表示，以便网络能够利用形态学线索“理解”训练中未出现的词条。

主要成果

向模型中添加 ELMo 可以得到最优表现，在诸如问题回答、文本蕴涵、语义角色标记、共指解析、命名实体提取和情感分析等 NLP 任务中，相对误差可以减少 6%-20%。
用 ELMo 增强模型可以显著减少达到最优性能所需的更新次数。因此，带有 ELMo 的语义角色标注（SRL）模型只需要 10 个 epoch 就可以超过基线模型经过 486 个 epoch 训练后达到的最优表现。
向模型引入 ELMo 还显著减少了实现相同性能水平所需的训练数据量。例如，对于 SRL 任务，ELMo 增强模型只需要训练集的 1% 就可以获得与基准模型在 10% 的数据上进行训练得到的相同性能。

AI 社区评价

该论文获得了 NAACL 会议（NLP 领域顶级会议）“杰出论文奖”。
该论文中介绍的 ELMo 方法被认为是 2018 年最大的科学突破之一，以及未来几年 NLP 领域的主要议题。

未来研究内容

通过将 ELMo 与独立文本的词向量表示进行连接，将该方法与特定任务相结合。
进行 ELMo 与输出结合的实验

潜在商业应用

ELMo 显著推进了现有 NLP 系统的表现：
- 使聊天机器人更好地理解人类和回答问题；
- 对正面和负面评论进行分类；
- 查找相关信息和文献等等。

4.AN EMPIRICAL EVALUATION OF GENERIC CONVOLUTIONAL AND RECURRENT NETWORKS FOR SEQUENCE MODELING（序列建模的通用卷积和递归网络的经验评估）

https://arxiv.org/abs/1803.01271

论文摘要

对于大多数深度学习实践者来说，序列建模是递归网络的代名词。然而，最近的结果表明，卷积结构在诸如音频合成和机器翻译等任务上的表现超过了递归网络。给定一个新的序列建模任务或数据集，应该使用哪种体系结构？我们对用于序列建模的通用卷积和递归网络结构进行了系统评价。我们在标准任务上对模型进行评估，这些标准任务通常用于对递归网络进行基准测试。我们的结果表明，一个简单的卷积结构在多种任务和数据集上的性能优于标准递归网络，如 LSTM，同时具有更长的记忆力。我们认为应该重新考虑序列建模和递归网络之间的共同关联，卷积网络应该被选作序列建模任务的自然起点。我们已经开源了代码：http://github.com/locuslab/TCN。

个人总结

这篇论文的作者对一个常见假设提出了质疑，即循环网络结构通常是序列建模任务的默认起点。他们的结果表明，通用时间卷积网络（TCN）在序列建模任务中的表现超越了常规的循环网络结构，如长短时记忆网络（LSTM）和门控循环单元网络（GRU）。

核心思想

时态卷积网络（TCN）使用了最新提出的最佳实践（如膨胀卷积和残差连接）设计，在序列建模任务中的表现显著优于通用递归网络。
TCN 具有比递归结构更长的记忆力，因此更适合需要长历史的任务。

主要成果
对序列建模任务中的卷积结构和递归结构进行了广泛的系统比较。
设计了一个卷积结构，可以作为序列建模任务的便捷且仍然强大的起点。

AI 社区评价
“永远在使用 RNN 之前尝试一下 CNN，你会惊讶于你所获得的结果。”——Andrej Karpathy，Tesla AI 总监。

未来研究内容

需要进一步的改进结构和算法细节来提高 TCN 在不同序列建模任务中的性能。

潜在商业应用

TCN 提升了依靠递归结构完成序列建模任务的 AI 系统的表现。因此潜在应用包括：
- 机器翻译；
- 语音识别；
- 音乐和声音合成。

5.DELAYED IMPACT OF FAIR MACHINE LEARNING（合理机器学习的延迟影响）

https://arxiv.org/abs/1803.04383

论文摘要

机器学习中的公平性主要在静态分类设置中进行研究，而不关心决策会如何随时间改变潜在的人群。传统智慧认为，公平标准应该促进他们意图保护的群体的长期福祉。

我们研究静态公平标准如何与幸福感的时间指标相互作用，如利益变量长期的改善、停滞、以及衰退。我们证明，即使在一步反馈模型中，普通的公平性标准一般来说并不会随时间而带来改善，而实际上可能造成损害，而不受约束的目标则不会。我们完整地总结了三个标准规则的延迟影响，对比了这些规则在质量上表现出的不同行为。此外，我们发现，测量误差的自然形式拓宽了公平性准则能够良好执行的范围。

我们的结果强调了测度和时间建模在公平标准评估中的重要性，提出了一系列新的挑战和取舍。

个人总结

这篇文章的目标是在使用基于分数的机器学习算法来决定谁获得机会（例如贷款、奖学金、工作）以及谁不能获得机会时，确保不同人口统计群体的公平对待。来自伯克利人工智能研究实验室的研究人员表明，使用共同的公平标准实际上可能会由于某些延迟的结果而伤害到未被充分代表或处于不利地位的群体。因此，在设计一个“公平”的机器学习系统时，他们鼓励人们着眼于长期的结果。

核心思想

考虑实施公平标准的延迟结果显示，这些标准可能对其意图保护的那些群体的长期福祉产生不利影响（例如，当借款人无法偿还在无约束设置下本不予发放的贷款时，使借款人的信用评分恶化。）
由于公平标准可能会主动伤害弱势群体，解决办法可以是使用决策规则，包括结果的显式最大化，或者使用结果模型。

主要成果

提出诸如人口均等和机会均等之类的公平标准会导致弱势群体的任何可能结果，包括改善、停滞和衰退。而遵循机构的最佳无约束选择政策 (例如利润最大化)，则永远不会为弱势群体带来衰退的效果（主动危害）。
通过 FICO 信用评分数据实验支持理论预测。
提出了硬公平约束的替代方案。

AI 社区评价

该论文获得了 ICML2018（机器学习顶级会议）最佳论文奖。
该研究揭示了正向判别有时也有可能适得其反。

未来研究内容

考虑除人口均值变化之外的其他影响（方差、个体级别的结果）。
研究结果优化对建模和衡量误差的鲁棒性。

潜在商业应用

通过由公平规则带来的约束转换为对结果建模，公司可以开发用于借贷或招聘的机器学习系统，在带来更多利润的同时保持公平性。

6. WORLD MODELS（世界模型）

https://arxiv.org/abs/1803.10122

论文摘要

我们探索在流行的强化学习环境建立的生成神经网络模型。我们提出的世界模型可以用无监督的方式快速训练，以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入，我们可以训练一个非常紧凑和简单的策略来解决既定任务。我们甚至可以完全在代理的世界模型生成的空间中训练代理，并将这一策略迁移到实际环境中。这篇论文的交互式版本可以在 https://worldmodels.github.io 查看。

个人总结

作者开发了一个世界模型，该模型可以用无监督的方式快速训练，来学习环境的空间和时间表示。在赛车任务中，这个代理成功地在赛道上导航，并在 VizDom 实验中避免了怪物射出的火球。这些任务对于以前的方法来说太具有挑战性。

核心思想

该解决方案由三个不同的部分组成：
- 一种用于捕获视觉信息的变分自动编码器（VAE）。它将 RGB 输入图像压缩为遵循高斯分布的 32 维隐向量。因此，代理可以使用更小的向量表示，也因此可以达到更高效的学习。
- 负责正向思维的递归神经网络（RNN）。这是一个记忆组件，它根据前面的图片和之前的动作预测由可视化组件捕获的下一幅图片。
- 一个负责选择动作（action）的控制器。这是一个简单的神经网络，将 VAE 的输出和 RNN 的隐藏状态连接起来并选择好的动作。

主要成果

这是首个能够解决强化学习环境中“赛车”任务的代理。
研究证明了在模拟的隐空间内训练代理执行任务的可能性。

AI 社区评价

这篇论文在学术界引起了热烈的讨论，在强化学习中利用神经网络，并且在代理自己构建的“盗梦空间” 中进行训练，是一个很棒的工作。

未来研究内容

通过将小的 RNN 替换为更高容量的模型或合并外部存储器模块，使代理能够探索更复杂的世界。
用更通用的方法进行实验，该方法允许层级规划，而不是这里提出的“时间序列”方法。

潜在商业应用

当运行计算密集型游戏引擎时，现在可以在其模拟环境中根据需要多次训练代理，而不是在实际环境中浪费大量计算资源来训练代理。

7. TASKONOMY: DISENTANGLING TASK TRANSFER LEARNING（任务学：理解任务迁移学习）

https://arxiv.org/abs/1804.08328

论文摘要

视觉任务之间有关系吗？或者它们是无关的？例如，表面法线可以被用来简化估计图像的深度吗？直觉给出了积极答案，这也意味着视觉任务之间存在着一种结构。掌握这种结构是意义重大的：它是迁移学习的基础概念，并且为识别任务之间的冗余性提供了一种原则性的方法，例如，它允许我们在相关任务之间的无缝重复使用监督信息，或者在一个系统中解决多个任务而不增加复杂性。

我们提出了一个计算性的方法来模拟视觉任务的空间结构。通过从 26 个 2D、2.5D、3D 和隐空间的语义任务字典中提取迁移学习的相关性关系来完成的。我们得到的是任务迁移学习的计算分类图。我们研究了这种结构的作用，例如非平凡的出现关系，并利用它们来减少对标注数据的需求。例如，解决一组 10 项任务所需的标注数据点的总数可以减少大约 2/3（与独立训练相比），同时保持性能几乎相同。我们提供了一组用于计算和探测这个分类结构的工具，包括解决方案，用户可以用来为他们的用例设计高效的监督策略。

个人总结

自从现代计算机科学的早期时代，许多研究人员就认为视觉任务之间存在一种结构关系。现在 Amir Zamir 和他的团队试图找到这个结构。他们使用完全计算的方法对其进行建模，发现不同视觉任务之间存在许多有用的关系，包括复杂任务。利用这些相互依存性，可以在标注数据量减少 2/3 的情况下实现相同的模型性能。

核心思想

如果模型掌握了不同视觉任务之间的关系，那么它只需要较少的监督，使用较少的计算，并且其表现更易预测。
最好采用完全计算的方法来发现视觉任务之间的关系，因为它避免了强加的先验，以及可能错误的假设：先验知识来源于人类的直觉或知识，而神经网络的表现可能基于不同的原则。

主要成果

识别 26 个常见视觉任务之间的关系，例如目标识别、深度估计、边缘检测和姿态估计。
展示这种结构如何帮助发现对每个视觉任务最有效的迁移学习类型。

AI 社区评价

这篇论文获得了 CVPR2018（计算机视觉顶级会议）最佳论文奖
这篇论文的结果十分重要，因为对于大多数真实场景的任务来说，没有可用的大规模标注数据集。

未来研究内容

摆脱完全由人类定义的视觉任务模型，并尝试将人类定义的视觉任务视为由计算发现的潜在子任务组成的观察样本。
探索将研究结果迁移到不完全视觉任务的可能性，例如机器人操作。

潜在商业应用
本文中发现的关系可用于构建更有效的视觉系统，需要标注数据更少，计算成本更低。

8. KNOW WHAT YOU DON’T KNOW: UNANSWERABLE QUESTIONS FOR SQUAD（知道你不知道的事：无法回答问题数据集 SQuAD）

https://arxiv.org/abs/1806.03822

论文摘要

摘要式阅读理解系统通常可以在文档中找到问题的正确答案，但是对于文中没有直接给出正确答案的问题，它们往往会做出不可靠的猜测。现有的数据集要么只关注能够回答的问题，要么使用自动生成的易于识别但难以回答的问题。为了解决这些缺点，我们提出了 SQuAD 2.0，斯坦福问答数据集（SQuAD）的最新版本。SQuAD 2.0 将现有的 SQuAD 数据与 5 万多个无法回答的问题结合在一起，这些问题由工作人员用相反的方式撰写，看起来与可答问题类似。为了在 SQuAD 2.0 上取得良好表现，系统不仅必须尽可能回答问题，而且还必须确定上下文没有给出答案的情况，并且避免回答。SQuAD 2.0 对于现有模型来说是一个具有挑战性的自然语言理解任务：在 SQuAD 1.1 数据集上 F1 评分达到 86% 的强神经系统，在 SQuAD 2.0 上 F1 评分仅达到 66%。

个人总结

斯坦福大学的一个研究小组扩展了著名的斯坦福问题回答数据集（SQuAD），增加了 50000 多个无法回答的问题。这些问题的答案在支持段落中没有直接给出，但是这些问题看起来与可回答的问题很像。甚至有些支持段落包含合理的（但不正确的）答案。这使得新的 SQuAD 2.0 对现有最先进的模型极具挑战性：在引入无法回答的问题之后，在之前版本的 SQuAD 数据集上达到 86% 准确率的强神经系统只能在新的数据集上得到 66% 的准确率。

核心思想

当前的自然语言理解（NLU）系统离真正的语言理解还很远，其根源之一是现有的问答数据集中的问题一定能在上下文中找到正确答案。
要真正具有挑战性，应该建立不可回答的问题数据集：
- 它们与相关段落有关；
- 该段落包含貌似合理的答案，其中包含与问题类型相同的信息，但是是不正确的。

主要成果

在原有 SQuAD 数据集上增加了 53777 个新的、无法回答的问题，构建了一个具有挑战性的大规模数据集，使自然语言理解（NLU）系统了解哪些问题无法回答。
为 NLU 系统带来新的挑战：现有模型（准确率为 66%）与基线精度（48.9%）更接近，而与人类精度（89.5%）更远。
貌似合理的答案确实是 NLU 系统的有效干扰源。

AI 社区评价

该论文被计算语言学协会（ACL）评选为 2018 年最佳短篇论文。
新的数据集增加了 NLU 领域复杂性，并且对该领域的研究产生了巨大的推动力。

未来研究内容

开发新的模型，“知道他们不知道什么”，更好地理解自然语言。

潜在商业应用
在真实场景中，一些问题的答案一般都不能直接从原文中得到。在这个数据集上训练阅读理解模型能够提升模型在真实场景下的表现。

9. LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS（用于高精度自然图像合成的大规模 GAN 训练）

https://arxiv.org/abs/1809.11096

论文摘要

尽管最近生成图像模型取得了一定进展，但是从诸如 ImageNet 之类的复杂数据集中成功生成高分辨率且具有多样性的样本仍然是一个难以实现的目标。为此，我们训练了迄今为止规模最大的生成对抗网络，并研究了在这种规模下特有的不稳定性。我们发现，对生成器应用正交正则化使其能够服从简单的“截断技巧”，可以通过隐空间的截断来精细控制样本保真度和多样性之间的权衡。我们的模型在类别条件图像合成任务中达到了最先进水平。当在 ImageNet 上以 128×128 分辨率进行训练时，我们的模型（BigGAN）的起始分数（IS）为 166.3，Frechet 起始距离（FID）为 9.6，比之前的最优 IS 52.52 和 FID18.65 有了显著提升。

个人总结

DeepMind 团队发现，当前的技术足以从现有数据集，例如 ImageNet 和 JFT-300M 中合成高分辨率且多样化的图像。他们特别指出，如果在大规模数据集上进行训练，生成对抗网络 (GANs) 可以生成看起来非常逼真的图像，即使这意味着用到比以前实验多 2 到 4 倍的参数和 8 倍的批尺寸。这些大规模的 GAN，或 BigGAN，达到了类别条件图像合成的最先进水平。

核心思想

当增加批尺寸和参数数量时，GAN 的表现也会大幅提高。
对生成器应用正交正则化约束可以让模型响应特定的技术（截断技巧），该技术可用于控制样本保真度和多样性之间的权衡。

主要成果

证明 GAN 可以从规模扩展中获益。
构建允许显式、细粒度地控制样本多样性和保真度之间权衡的模型。
发现了大规模 GAN 的不稳定性并且将其特征化。
BigGAN 用 ImageNet 128×128 分辨率图像进行训练：初始得分（IS）为 166.3，之前的最佳 IS 为 52.52；Frechet Inception Distance (FID) 为 9.6，之前最好的 FID 为 18.65。

AI 社区评价

该论文投稿至 ICLR 2019
自从 TF Hub 上线 BigGAN 生成器后，全世界的 AI 领域研究人员用 BigGAN 生成了狗、手表、比基尼、蒙娜丽莎、海岸和很多其他主题图像。

未来研究内容

用更大的数据集来减轻 GAN 的稳定性问题。
探索减少 GAN 产生奇怪样本数量的可能性。

潜在商业应用

取代广告和电子商务中昂贵的手工媒体创作。

10. BERT: PRE-TRAINING OF DEEP BIDIRECTIONAL TRANSFORMERS FOR LANGUAGE UNDERSTANDING（BERT：用于语言理解的深度双向转换器预训练）

https://arxiv.org/abs/1810.04805

论文摘要

我们介绍了一种新的语言表示模型，称为 BERT，表示转换器的双向编码器表示（Bidirectional Encoder Representations from Transformers）。与最近的语言表示模型不同，BERT 在所有层中联合前后上下文来预训练深度双向表示。只需要一个额外的输出层，就可以对预训练的 BERT 表示进行微调，从而为各类任务创建最先进的模型，例如问题回答和语言推理，而无需对特定任务的体系结构进行大量修改。

BERT 概念简单，但经验强大。它在 11 个自然语言处理任务中获得了最佳结果，包括将 GLUE 基准提升到 80.4%（7.6% 的绝对增长）、MultiNLI 精度提升至到 86.7（5.6% 的绝对增长），以及 SQuAD v1.1 问题回答测试的 F1 分数提高到 93.2（1.5% 的绝对增长），超过了人类水平 2.0%。

个人总结

谷歌 AI 团队提出了一个新的前沿自然语言处理模型 BERT。它的设计允许模型从左右两边考虑每个单词的上下文。在概念简单的同时，BERT 在 11 个 NLP 任务上获得了最先进的结果，这些任务包括回答问题、命名实体识别以及其他与语言理解相关的任务。

核心思想

通过随机屏蔽一定比例的输入词条来训练深层双向模型，可以避免单词可以间接“看到自己”的循环。
预训练语句关系模型，通过构建一个简单的二元分类任务，预测句子 B 是否紧跟着句子 A，从而让 BERT 更好地理解语句之间的关系。
训练一个非常大的模型（24 个 Transformer 块，1024 隐层，340M 参数）和大量数据（33 亿词语料库）。

主要成果

在 11 项 NLP 任务上达到了最先进水平：
- GLUE 分数达到 80.4%，比之前的最佳结果提升 7.6%；在 SQuAD 1.1 上的准确率达到 93.2％，超过人类水平 2％。
提出一个预训练的模型，它不需要任何实质性的架构修改就可以应用于特定的 NLP 任务。

AI 社区评价

BERT 模型代表着 NLP 的新时代。
两个无监督任务一起训练（“填空”和“句子 B 是不是紧接句子 A”）对于很多 NLP 任务都取得了很好的结果。
预训练语言模型成为新标准。

未来研究内容

在更多任务上测试模型。
研究 BERT 能或不能捕捉到的语言学现象。

潜在商业应用

BERT 可以帮助企业解决大量 NLP 问题：
- 提升聊天机器人的用户体验；
- 分析顾客点评；
- 查找相关信息。

查看英文原文：

https://www.topbots.com/most-important-ai-research-papers-2018/

我们为你精心整理了2018年最重要的10项AI研究

猜你喜欢