注: 一部のコンテンツはオンライン チュートリアルからのものです。侵害がある場合は、該当するコンテンツを削除するために私に連絡してください。
チュートリアルリンク: 1.1 Transformer 背景紹介_哔哩哔哩_bilibili
1. 利点
以前に紹介した RNN とそのバリアントである LSTM および GRU と比較して、Transformer には 2 つの利点があります。
1. 分散 GPU 並列トレーニングを使用してトレーニング効果を向上させることができます
2. LSTMやGRUと比較して、より長い間隔でサンプルを関連付けることができ、効果が優れています
2、役割
seq2seq に基づく Transformer モデルは、NLP 分野の典型的なタスクを完了できます。しかし、画像認識、音声認識、その他の分野にも応用できます。たとえば、CNN+Transformer は音声認識に使用できます。
3. 構造
図 1: 変圧器のアーキテクチャ
1. エンコーダー部
エンコーダ部はエンコーダ層をN層積層して形成されます。各エンコーダー層は 2 つのサブ層によって接続されています。
サブレイヤ 1: マルチヘッドセルフアテンション層 + 正規化層 + 残留接続
サブレイヤ 2: フィードフォワード全結合層 + 正規化層 + 残留結合
2. デコーダ部
デコーダ部は、N層のデコーダ層を積層して構成される。各デコーダ層は 3 つのサブ層によって接続されています。
サブレイヤー 1: マスク付きマルチヘッド アテンション レイヤー + 正規化レイヤー + 残留接続
サブレイヤ 2: マルチヘッドセルフアテンション層 + 正規化層 + 残留接続
サブレイヤー 3: フィードフォワード全結合層 + 正規化層 + 残留結合