MicrosoftがT-NLGをリリース:170億のパラメータを持つ言語モデル

画像

著者| Corby Rosset Translator | Wang Qiang Planning | Yuying

チューリング自然言語生成(T-NLG、チューリング自然言語生成)は、Microsoftによって開発された170億のパラメーター言語モデルであり、多くのダウンストリームNLPタスクでのパフォーマンスが既存のトップレベルを上回っています。このモデルのデモを学術コミュニティに示しました。これには、自由形式の生成、質問応答、フィードバックおよび研究目的の要約機能が含まれていました。<|この段落の終わり|>

上記のテキスト(元の英語のテキスト)は、Turing-NLG言語モデル自体によって生成されます。

画像

上の写真はDistilBERTによって投稿された同様の写真からのものです


BERTやGPT-2などの大規模な深層学習言語モデル(LM)は、インターネットで公開されているほぼすべてのテキストから数十億のパラメーターを学習し、ほぼすべてのダウンストリーム自然言語処理(NLP)タスクを改善しました(質問応答、会話エージェンシー、ドキュメントの理解など)開発のレベル。

高度な自然言語生成テクノロジーは、作成者がコンテンツを作成するのを支援したり、人々がテキストの長い段落を収集して時間を節約したり、デジタルアシスタントのカスタマーエクスペリエンスを向上させたりするなど、さまざまな実際のアプリケーションに変換できます。現在の傾向では、自然言語モデルが大きいほど、結果は良くなります。これに関連して、Microsoft Turingプロジェクトは、これまでにリリースされた中で最大のスケールであるTuring Natural Language Generation(T-NLG)テクノロジーを発表しました。 170億のパラメーターを使用すると、さまざまな言語モデリングベンチマークでのパフォーマンスが以前のトップレベルよりも優れており、多くの実用的なタスク(要約や質問への回答など)でのパフォーマンスも非常に優れています。この成果の背後にある最大のヒーローは、DeepSpeedライブラリ(PyTorchと互換性があります)とZeROオプティマイザーによってもたらされた画期的な進歩です。関連コンテンツについては、このブログ投稿を参照してください)。

T-NLGのプライベートデモを学界の少数のユーザーグループにリリースしました。これには、自由形式の生成、質問応答、予備テストとフィードバックのための要約機能が含まれています。

T-NLG:大規模な言語生成モデルの利点

T-NLGは、Transformerベースの言語生成モデルです。つまり、オープンテキストタスクを完了するための語彙を生成できます。未完成の文章を作成するだけでなく、入力質問への回答を直接生成したり、入力ドキュメントの要約を生成したりすることもできます。

T-NLGなどの生成モデルは、NLPタスクにとって非常に重要です。これは、私たちの目標が、あらゆる状況で人間と同じように直接的、正確、スムーズに応答することであるためです。以前は、質問応答および要約システムは、ドキュメントから既存のコンテンツを抽出する必要がありました。これは、代替の回答または要約として使用できますが、自然で一貫性がないように見える傾向がありました。T-NLGの助けを借りて、私たちは自然に要約を与えたり、個人的な文書や電子メールのトピックに関する質問に答えたりすることができます。

モデルが大きく、事前トレーニングデータがより多様で包括的なものである限り、使用するトレーニング例の数が少なくても、複数のダウンストリームタスクに一般化すると、モデルのパフォーマンスが向上することがわかりました。したがって、大規模な集中型マルチタスクモデルをトレーニングし、その機能を多くのタスク間で共有する方が、タスクごとに新しいモデルを個別にトレーニングするよりも効率的であると考えています。

T-NLGの事前トレーニング:ハードウェアとソフトウェアの飛躍的進歩

13億を超えるパラメーターを持つモデルは、単一のGPUに収まらないため(32GBのメモリを備えたGPUでさえも)、モデル自体を複数のGPU間で並列化するか、複数のフラグメントに分割する必要があります。T-NLGをトレーニングするために、ハードウェアとソフトウェアでいくつかのブレークスルーを使用しました。

  1. GPU間の通信を高速化するために、NVIDIADGX-2ハードウェア構成とInfiniBand接続を使用します。

  2. テンソルスライスを使用して、モデルをNVIDIAMegatron-LMフレームワークの4つのNVIDIAV100GPUにスライスします。

  3. ZeROを使用したDeepSpeedを使用すると、モデルの並列度を(16から4に)減らし、各ノードのバッチサイズを4倍に増やし、トレーニング時間を3分の1に減らすことができます。DeepSpeedを使用すると、より少ないGPUで非常に大きなモデルをトレーニングできるため、効率が向上します。512のバッチサイズでトレーニングするには256のNVIDIA GPUしか使用しませんが、Megatron-LMのみを使用すると1024のNVIDIAGPUが必要です。DeepSpeedはPyTorchとも互換性があります。

生成的 T-NLG 模型具有 78 个 Transformer 层,其隐藏层节点大小为 4256,有 28 个 attention head。为了和 Megatron-LM 的结果对比,我们使用了与 Megatron-LM 相同的超参数和学习计划来对模型进行预训练,使用了自回归生成损失函数,1024 长度的 Token 序列,训练了 30 万步,批大小为 512。学习计划遵循 3200 个线性预热步骤,最大学习速率为 1.5×10-4,余弦衰减超过 500,000 个步骤,精度为 FP16。我们使用与 Megatron-LM 模型相同的数据类型来训练模型。

我们还对比了预训练的 T-NLG 模型在标准语言任务,例如 WikiText-103 和 LAMBADA 在下一个单词的预测准确度(越高越好)上的性能。下表显示,我们在 LAMBADA 和 WikiText-103 上都打破了已有的最好纪录。其中 Megatron-LM 是 NVIDIA Megatron 模型公开发布的结果数据。

画像

*OpenAI 使用了额外的处理技术(停用词过滤)来获得比独立模型更好的成绩。Megatron 和 T-NLG 都不使用这种停用词过滤技术。

下面的图 1 显示了与 Megatron-LM 相比,T-NLG 在验证困惑度方面的表现。

画像

图 1:训练期间 Megatron-8B 参数模型(橙色线)与 T-NLG 17B 模型(蓝线和绿线)验证困惑度的成绩对比。虚线表示通过当前公开的最佳技术模型实现的最低验证损失。图中从蓝色到绿色的过渡表示 T-NLG 在性能上超过了已有的最佳公开技术水平


直接回答问题和零次回答能力

许多 Web 搜索用户希望在问问题时,能看到结果页面的顶部显示一个直接回答问题的卡片。这些卡片往往会从某段上下文中找出一句话来做答案。我们的目标是直接回答用户的问题,从而更明确地满足他们信息需求。例如,大多数搜索引擎解答下面这个问题时会展示一段文字,并高亮显示其中的“Tristan Prettyman”(参见下面的示例)。

画像

相比之下,T-NLG 会直接用完整的句子回答问题。这种能力在 Web 搜索以外的场景中用途更大——例如,当用户向 AI 助手询问有关自己个人数据的问题(例如电子邮件或 Word 文档)时,这种能力能让助手更智能地给出答案。

这一模型还能够实现“零次”(zero shot)问题解答,意味着无需上下文即可回答问题。下面的示例中模型没有什么段落可用,只有问题。在这类情况下,模型通过在预训练过程中获得的知识来生成答案。

画像

由于 ROUGE 评分) 取决于真值(ground-truth)答案,其无法反映其他质量指标,例如事实正确性和语法正确性等,因此我们请人工注释者来评估我们之前的基准系统(一个类似于 CopyNet 的 LSTM 模型)和当前的 T-NLG 模型。要实现对事实正确性的自动评估还有很多工作要做。

画像

我们还注意到,较大的预训练模型要达到较好的学习成果时所需的下游任务实例更少。我们最多只有 100,000 个“直接”回答问题 - 段落 - 答案三元组的实例,但就算只进行了几千次训练,我们的模型仍比 LSTM 基准模型在同一份数据上训练多个 epoch 的表现还更出色。由于收集带注释的监督数据是非常昂贵的,所以这种结果会带来实际的业务收益。

无需太多监督的抽象摘要

NLP 领域中的摘要技术有两种类型:提取——从文档中获取少量句子作为摘要;抽象——用 NLG 模型像人类一样生成摘要。T-NLG 的目标不是复制现有内容,而是为各种文本文档(如电子邮件、博客文章、Word 文档甚至 Excel 工作表和 PowerPoint 演示文稿)像人类那样编写抽象摘要。这里的一大挑战是,在所有这些情况下都缺乏监督训练数据:人类并不会每次都明确地总结每种文档类型。T-NLG 的强大在于,它已经非常理解文本,因此无需太多的监督即可胜过我们之前使用的所有技术。

为了使 T-NLG 尽可能通用,从而为各种类型的文本生成摘要,我们在几乎所有公开可用的摘要数据集中以多任务方式调整了 T-NLG 模型,总计约有 400 万个训练实例。我们使用 ROUGE 分数(代表所生成的摘要与参考摘要中的单字组和双字组的匹配程度)与另一种最新的基于 Transformer 的语言模型(称为 PEGASUS,https://arxiv.org/abs/1912.08777),和之前表现最佳的模型进行了对比。

画像

请注意,T-NLG 是以多任务方式,同时在所有数据集上进行训练的。众所周知,ROUGE 评分在摘要任务方面存在缺陷(可以通过多种方式编写很好的抽象摘要),因此我们在下面提供了一些公开发表的文章的输出摘要,以供比较。

画像

T-NLG 的未来应用

T-NLG 在自然语言生成方面已经取得了突破,为微软和我们的客户提供了新的机遇。除了通过文档和电子邮件摘要来节省用户时间之外,T-NLG 还可以为作者提供写作辅助,并回答读者可能对文档提出的问题来增强微软 Office 套件的体验。此外,它为对话更流畅的 聊天机器人 和 数字助理)铺平了道路,这样自然语言生成技术就可以与客户对话,从而帮助企业改善客户关系管理和销售工作。随着我们进一步提高语言模型的质量,我们也对新的可能性兴奋不已。

关于图灵项目:

T-NLGは、Turing Projectと呼ばれるより大きなプロジェクトの一部です。TuringProjectは、マイクロソフト製品を開発するためのテキストおよび画像処理におけるディープラーニング技術の使用を専門とする応用研究グループです。私たちの仕事は、Bing、Office、Xboxなどの複数のMicrosoft製品に積極的に統合されています。


おすすめ

転載: blog.51cto.com/15060462/2675622