トランスフレーム
フレームワークの前に、理解してこれらもつまずい詳述されているのをたくさん読んでいないされているである「注意は、すべての必要があります」。今日、彼らは主に注目部分のさまざまなメカニズムを含む、もう一度、関連知識を扱ったQ,K,V
、以前よりも少し明確ないくつかを感じ、一部の関連するTensorFlowの実装コードを見ました。
関連リンク
- コードのGoogleの公式コピーモデル/ mtf_transformer.py / _layer_stack機能がある
Self-attention
、Encoder-Decoder attention
、Local attention
、Compressed attention
いくつかの。しかし、コア部分がアップパッケージされている、あなたはインストールする必要がありmesh-tensorflow
、関連する関数を表示します
import mesh-tensorflow as mtf
# Self attention layer
y, new_k, new_v = mtf.layers.multihead_self_attention_incremental(some_argvs)
# Encoder-Decoder attention layer
y, new_k, new_v = mtf.layers.multihead_encdec_attention_incremental(some_argvs)
# Local attebtion
y, new_k, new_v = mtf.layers.masked_local_attention_1d_incremental(some_argvs)
# Compressed attention
mtf.layers.multihead_self_attention_memory_compressed(some_argvs)