序文
テキスト生成は、NLP テクノロジを使用して、与えられた情報に基づいて特定のターゲット テキスト シーケンスを生成することを目的としています. 多くのアプリケーション シナリオがあり、コーパスを調整することによって、同様のモデル フレームワークをさまざまなアプリケーション シナリオに適応させることができます. この記事では、エンコーダーとデコーダーの構造に焦点を当て、テキストの要約または QA システムのテキスト生成を実験的なシナリオとして使用するいくつかの技術開発をリストします。
Seq2Seq フレームワークとその最新の研究成果
Seq2Seq フレームワークは、もともと機械翻訳タスクを解決するために設計されたアルゴリズム アーキテクチャであり、主にエンコーダとデコーダの 2 つの部分に分かれています。エンコーダはソース言語文をセマンティック空間のベクトルに圧縮する責任があり、これにはソース言語文の主要な情報が含まれていると予想されます; デコーダの他の部分は、エンコーダによって提供されたセマンティック ベクトルに基づいて、意味的に同等のターゲット言語文。その本質は、多対多のマッピング タスクを解決することです。以下は、主にモデル構築、事前トレーニングタスク、微調整、実験の動機から比較したものです。
比較対象のBARTとリーディングエッジ付T5の2機種を紹介。
T5 | バート | |
---|---|---|
モチベーション | 言語モデルの最適な構造を見つけ出し、様々な構造を試してからSeq2Seq構造を決定し、マルチタスク学習などの観点から多数の実験を行い、SOTAレベルに到達するための言語モデルの概要です。 NLU および NLG タスク。出力 C4 英語コーパス。 | BERTとGPTを統合したい、トランスフォーマーの元の構造を決定する。BART は、さまざまな目的関数の有効性を調査します。つまり、さまざまな種類のノイズを入力に追加し、出力で復元します。NLU が RoBerta と同様であるという前提で、BART は複数の NLG タスクで SOTA の結果を達成しています。 |
モデルの特徴 | 1. T5 は、Position Encoding を相対位置埋め込みに変更します 2. T5はまだReLUを採用しています |
1. BART は、BERT と同じ学習可能な絶対位置コードに置き換えられます。 2.活性化関数BARTがBERTおよびGPTと同じ場合、GELUが使用されます |
事前トレーニングタスク | T5 は、監視ありと監視なしに分類される 2 つのタスクを使用します。その中で、教師なしタスクもスパンレベルのマスクですが、出力は文全体を復元する必要はありません。マスクされたトークンを出力するだけです。監視されたタスクにはほとんど改善がありません。T5 は、他のミッション タイプも実験しました。前置言語モデルタスク、バート式タスク(デコード出力原文はBARTに類似)、スクランブル復元タスク(DEshuffle) | 1. ノイズを含む入力を復元する 2. テキストの埋め込み + 文の順列を使用する. ここで、テキストの埋め込みが最も重要な役割を果たします, これは、スパン レベル マスクです. スパンの長さは 0 にすることができ、ポアソン分布に従います |
微調整 | 1) マルチタスク学習の微調整 2) 分類タスク、生成タスクを問わず、すべて生成タスクとみなす |
1) 分類タスクの入力は、エンコーダとデコーダに同時に送信され、最終的な出力テキスト表現 2) タスクを翻訳するとき、ボキャブラリ (翻訳タスクのボキャブラリとモデルのボキャブラリ) が異なるため、BART の Embedding を置き換えるために小さなエンコーダが使用されます。 |
実験 | T5 実験は、BERT では完了できない生成タスクを完了する必要があるため、エンコーダー モデルのみを持つ BERT と直接比較されませんでした。 T5: 2048 (バッチサイズ)* 512(seq_length) * 1000000(ステップ) T5ベース: 12-12-768(220M) T5大:24-24-1024(770M) |
バート: 8000 (バッチ サイズ) * 512 (seq_length) * 500000 (ステップ) BART大:12-12-1024 |
重要な技術的ポイントの分析
ReluとGELU活性化機能の違い
履歴書 | GELU (ガウス誤差線形単位) | |
---|---|---|
機能特性 | 区分線形関数は滑らかではなく、ある点で滑らかではありません (点 0 は微分できません)。 | 基本的に線形出力、x が 0 に近い場合は非線形出力。一定の継続性があり、 |
アドバンテージ | 計算プロセスを簡素化し、計算コストを削減し、勾配爆発と勾配消失を回避します | 入力情報を維持しながらランダムな規則性を提供し、モデルの一般化能力を向上させます |
欠点 | ゼロ点は微分可能ではなく、ネットワークのパフォーマンスにある程度影響します。モデルの一般化能力を向上させるには、ランダムな正則化を追加する必要があります | 計算の複雑さと計算コストの増加 |
グラフィックス |