トランスの紹介とアーキテクチャの紹介

注: 一部のコンテンツはオンライン チュートリアルからのものです。侵害がある場合は、該当するコンテンツを削除するために私に連絡してください。

チュートリアルリンク: 1.1 Transformer 背景紹介_哔哩哔哩_bilibili

1. 利点

以前に紹介した RNN とそのバリアントである LSTM および GRU と比較して、Transformer には 2 つの利点があります。

1. 分散 GPU 並列トレーニングを使用してトレーニング効果を向上させることができます

2. LSTMやGRUと比較して、より長い間隔でサンプルを関連付けることができ、効果が優れています

2、役割

seq2seq に基づく Transformer モデルは、NLP 分野の典型的なタスクを完了できます。しかし、画像認識、音声認識、その他の分野にも応用できます。たとえば、CNN+Transformer は音声認識に使用できます。

3. 構造

 図 1: 変圧器のアーキテクチャ

1. エンコーダー部

エンコーダ部はエンコーダ層をN層積層して形成されます。各エンコーダー層は 2 つのサブ層によって接続されています。

サブレイヤ 1: マルチヘッドセルフアテンション層 + 正規化層 + 残留接続

サブレイヤ 2: フィードフォワード全結合層 + 正規化層 + 残留結合

2. デコーダ部

デコーダ部は、N層のデコーダ層を積層して構成される。各デコーダ層は 3 つのサブ層によって接続されています。

サブレイヤー 1: マスク付きマルチヘッド アテンション レイヤー + 正規化レイヤー + 残留接続

サブレイヤ 2: マルチヘッドセルフアテンション層 + 正規化層 + 残留接続

サブレイヤー 3: フィードフォワード全結合層 + 正規化層 + 残留結合

おすすめ

転載: blog.csdn.net/APPLECHARLOTTE/article/details/127204960