Transformer モデルは複数のエンコーダー層とデコーダー層で構成されており、セルフアテンション メカニズム、線形層、層正規化などの重要な構成要素が含まれています。モデル全体を単一の数式として完全に表現することは不可能ですが、いくつかの重要な構成要素の数学的表現を提供することはできます。以下は、LaTeX 形式でレンダリングされた Transformer の主要コンポーネントのいくつかの数式です。
スケーリングされたドット積の注意
セルフ アテンション メカニズム (スケーリング ドット積アテンション) は、Transformer のコア コンポーネントです。入力シーケンスQQが与えられると、K.Kさん_