[人工知能] トランスモデルの数式:セルフアテンション機構、マルチヘッドセルフアテンション、QKV行列計算例、位置エンコーディング、エンコーダとデコーダ、共通活性化関数など。

Transformer モデルは複数のエンコーダー層とデコーダー層で構成されており、セルフアテンション メカニズム、線形層、層正規化などの重要な構成要素が含まれています。モデル全体を単一の数式として完全に表現することは不可能ですが、いくつかの重要な構成要素の数学的表現を提供することはできます。以下は、LaTeX 形式でレンダリングされた Transformer の主要コンポーネントのいくつかの数式です。

スケーリングされたドット積の注意

セルフ アテンション メカニズム (スケーリング ドット積アテンション) は、Transformer のコア コンポーネントです。入力シーケンスQQが与えられると、K.Kさん_

おすすめ

転載: blog.csdn.net/universsky2015/article/details/130837569