モデルの概要:
-
T5: Transformer に基づいて、マルチタスク学習と教師なし事前トレーニングを組み合わせ、大規模な英語の Wikipedia コーパスをトレーニングに使用します。
-
GPT-3: こちらもTransformerをベースに、非常に大規模なコーパスを使用し、ゼロショット学習により自然言語推論を実現。
-
チンチラ: 適応正則化と注意の動的使用を使用した新しい自然言語生成モデル。
-
PaLM: 単方向モデルと双方向モデルの利点を組み合わせ、双方向トレーニングと追加タスクを伴う事前トレーニングを使用すると、非常に良い結果が得られました。
-
LLaMA: ネットワーク パラメーターを最適化するために、ターゲット タスクの言語モデルと確率モデルを使用して、事前に言語モデリングを使用する自然言語理解モデル。
-
Alpaca: 新しい NLP タスクにすばやく適用できるメタ学習ベースのマルチタスク学習モデル。
-
ELECTRA: 「代替観測」アプローチを使用して言語表現を学習し、有望な結果を達成する、新しい事前トレーニング済みモデル。
-
Roberta: より多くのトレーニング データ、より長いトレーニング時間、およびより大きなモデル サイズを使用して、動的蒸留と他の手法を組み合わせることで、良い結果が得られました。
-
BART: 音声認識と機械翻訳の技術を組み合わせ、双方向のエンコーダー/デコーダー構造を使用しており、非常に優れた結果を達成しています。
-
UniLM: 垂直および水平の事前トレーニング メカニズムを使用して、言語生成と言語理解を統合し、さまざまな自然言語処理タスクに適用できます。
-
GShard: 大規模な分散トレーニングをサポートする Transformers フレームワークで、複数の GPU で非常に優れたパフォーマンスでトレーニングできます。
-
LSDSem: 構文情報と意味情報の両方を考慮した、マルチレベル検出に基づく意味依存性分析モデル。
-
BertRank: BERT の 2 タワー アーキテクチャに基づく会話型検索のモデルで、マルチタスク学習とローカル アテンション メカニズムを使用し、良好な結果を達成しました。
-
BERT-DP: ニューラル ネットワークの動的プログラミング技術を利用して高精度を実現する BERT ベースの依存関係解析モデル。
-
NLR: 生成的対立ネットワークに基づく自然言語推論モデルで、教師なしデータ拡張技術を使用し、非常に優れた結果を達成しています。
-
MT-DNN: マルチタスク学習に基づく自然言語処理モデルで、複数のタスクを共同でトレーニングすることでモデルのパフォーマンスを向上させます。
-
ERNIE: ナレッジ グラフと外部エンティティを組み合わせて言語間およびドメイン間アプリケーションをサポートする言語表現フレームワーク。
-
XLNet: 自己回帰ネットワークと反復逆言語モデルを使用して、モデルはトレーニング前の段階で双方向のコンテキスト情報を処理できます。
-
TAPAS: Transformer のエンコーダーとデコーダーを解析ツリー情報と組み合わせて使用する、テーブルベースの自然言語推論モデル。
-
DeBERTa: 個別のマスク ネットワークとグローバル ネットワークを利用して単語に異なる重要性を割り当てる、新しいマルチストリーム モデル。
-
FNet: 畳み込み層をカスタムの逆時間フーリエ (IFFT) 層に置き換え、Transformer ベースのモデルに匹敵する効果を実現します。
-
AdaBERT: 2 つのモジュールを使用してコンテキスト表現とタスク表現を個別に学習する、適応型推論ベースの自然言語処理モデル。
-
UniSkip: 文中のスパン情報を使用して情報の流れを制御し、入力文の重要な情報により注意を払う効果を実現します。
-
Transformer-XH: 隠れ層のサイズと数を決定し、自動モデル選択を実現し、複数のタスクでより良い結果を達成するためのテスト。
-
Embedding Propagation: 各単語の埋め込みベクトルを自動的に学習し、マニホールド スペース テクノロジの助けを借りて、より豊かな意味表現を実現します。
-
EAT: トランスフォーマーに基づく実体関係表現モデルで、セルフアテンションメカニズムとグローバル機能アテンションを導入し、優れた成果を上げています。
-
GPT-2: 教師なし学習とマルチレベル構造を使用した Transformer ベースの事前トレーニング済み言語表現モデルは、良好な結果を達成しました。
-
ULMFiT: CycleGAN を使用してデータセットの強化を実現し、sequence-to-sequence 方式で微調整を行い、良好な結果が得られました。
-
BERT-MRC: 二項分類の形式をスパン抽出に拡張し、精度を向上させる BERT ベースの読解モデル。
-
ERNIE-Gram: ERNIE に基づく自然言語生成モデルで、大規模な弱教師ありデータと教師なし事前トレーニング技術を使用し、優れた成果を上げています。
長所と短所のリスト:
モデル名 | アドバンテージ | 不利益 |
---|---|---|
T5 | マルチタスク学習と教師なし事前トレーニングの組み合わせ; 大規模コーパスをトレーニングに使用 | より長いトレーニング時間 |
GPT-3 | 膨大なコーパスを実現 自然言語推論機能を実現するゼロショット学習を実現 | まだ全開ではない |
チンチラ | 適応正則化と動的使用法を使用した注意メカニズム | すべてのアプリケーション シナリオに適しているわけではありません |
手のひら | 単方向モデルと双方向モデルの利点を組み合わせ、双方向トレーニングと事前トレーニングを追加タスクとともに使用 | 大規模な計算能力とデータ量が必要になる場合があります |
ラマ | ネットワーク パラメーターを最適化するために言語モデリングをアプリオリに使用できます。 | モデルのデータ バイアスによってパフォーマンスが影響を受ける可能性があります |
アルパカ | メタ学習に基づくマルチタスク学習モデル; 新しい NLP タスクにすばやく適用できます | オープンソースの実装が少ない |
エレクトラ | 「代理観察」という方法で言語表現を学習し、成果を上げた | すべての NLP タスクでまだ十分にテストされていない |
ロベルタ | より多くのトレーニング データ、より長いトレーニング時間、およびより大きなモデル サイズを使用します。動的蒸留およびその他の手法を組み込みます。 | トレーニングにはより多くのコンピューティング リソースが必要になる場合があります |
バート | 音声認識と機械翻訳を組み合わせた技術、双方向のエンコーダ・デコーダ構造を採用 | 一部のアプリケーションでは、より高い精度が必要です |
UniLM | 言語生成と言語理解を融合させ、さまざまな自然言語処理タスクに適用可能 | 大規模なデータの処理とトレーニング時間が長くなる可能性があります |
GSハード | 大規模な分散トレーニングをサポートし、パフォーマンスは非常に優れています | より高い使用コスト |
LSDSem | 構文情報と意味情報の両方が考慮されます | 現在、すべての NLP タスクで利用できるわけではありません |
バートランク | マルチタスク学習と局所注意メカニズムの使用 | 一部のアプリケーション シナリオでは、過剰適合のリスクがある可能性があります |
BERT-DP | ニューラルネットワークの動的計画法技術を活用し、高精度を実現 | 入力データのノイズやエラーに敏感 |
NLR | 教師なしデータ拡張技術を利用し、適度に良好な結果を達成 | BERT-DP と同様に、入力データのノイズやエラーの影響を受けやすい |
MT-DNN | 複数のタスクを共同でトレーニングして、モデルのパフォーマンスを向上させる | 高いトレーニング時間とコンピューティング リソースの要件 |
アーニー | ナレッジ グラフと外部エンティティを組み合わせ、クロス言語およびクロスドメイン アプリケーションをサポート | 一部のアプリケーション シナリオでは、その効果は満足のいくものではありません |
XLNet | 自己回帰ネットワークと再帰逆言語モデルを使用して双方向のコンテキスト情報を処理する | トレーニングとチューニングには、より多くの時間とコンピューティング リソースが必要です |
タパス | Transformer エンコーダーとデコーダーが使用され、解析ツリー情報と組み合わせて使用されます | 一部のアプリケーション シナリオでは、その効果は満足のいくものではありません |
デベルタ | 個別のマスク ネットワークとグローバル ネットワークを利用して、単語に異なる重要度を割り当てます | トレーニングとチューニングには、より多くの時間とコンピューティング リソースが必要です |
Fネット | Transformer ベースのモデルと同等の効果を達成、計算効率が向上 | まだ研究段階 |
アダバート | 2 つのモジュールを使用して、コンテキスト表現とタスク表現を個別に学習します | より多くのトレーニング リソースと調整時間が必要 |
ユニスキップ | 入力文の重要な情報にもっと注意を払う | 大規模なデータの処理とトレーニング時間が長くなる可能性があります |
トランスXH | 自動化されたモデル選択が達成され、複数のタスクでより良い結果が得られました | 原理はもっと複雑 |
埋め込み伝搬 | 各単語の埋め込みベクトルを学習し、より豊かな意味表現を実現 | 一部のアプリケーション シナリオでは、その効果は満足のいくものではありません |
食べる | 自己注意メカニズムとグローバル機能注意を使用して、良い結果を達成しました | トレーニングとチューニングには、コンピューティング リソースに対する高い要求があります |
GPT-2 | 教師なし学習とマルチレベル構造を使用し、良好な結果を達成 | すべての NLP タスクに適しているわけではありません |
ULMFiT | CycleGAN を使用してデータセットの強化を実現し、sequence-to-sequence メソッドを使用して微調整を行う | より多くのコンピューティング リソースと時間が必要 |
BERT-MRC | バイナリ分類の形式をスパン抽出に拡張し、精度を向上させました | すべての読解タスクに適しているわけではありません |
ERNIEグラム | 大規模な弱教師データと教師なし事前トレーニング技術を使用して、良い結果を達成しています | 一部のアプリケーション シナリオでは、その効果は満足のいくものではありません |