研究ノートの注意メカニズム-transformer

記事のディレクトリ

トランスフレーム

フレームワークの前に、理解してこれらもつまずい詳述されているのをたくさん読んでいないされているである「注意は、すべての必要があります」。今日、彼らは主に注目部分のさまざまなメカニズムを含む、もう一度、関連知識を扱ったQ,K,V、以前よりも少し明確ないくつかを感じ、一部の関連するTensorFlowの実装コードを見ました。

ここに画像を挿入説明

関連リンク

  • コードのGoogleの公式コピーモデル/ mtf_transformer.py / _layer_stack機能があるSelf-attentionEncoder-Decoder attentionLocal attentionCompressed attentionいくつかの。しかし、コア部分がアップパッケージされている、あなたはインストールする必要がありmesh-tensorflow、関連する関数を表示します
import mesh-tensorflow as mtf

# Self attention layer
y, new_k, new_v = mtf.layers.multihead_self_attention_incremental(some_argvs)

# Encoder-Decoder attention layer
y, new_k, new_v =  mtf.layers.multihead_encdec_attention_incremental(some_argvs)

# Local attebtion          
y, new_k, new_v = mtf.layers.masked_local_attention_1d_incremental(some_argvs)

# Compressed attention
mtf.layers.multihead_self_attention_memory_compressed(some_argvs)
  • 公式のGoogleに前に出てきた、多くの人が自分のトランスロジックを実現し、私はここが明確に書かれていると思うのコードは、だけでなく、ブロガーに関連したコードだった構文解析
  • 私はまた、人々のいくつかは、プロセスの直感的な理解をブログ見て、このアクションフィギュアは、デコーダプロセスは非常に明確に説明しました
  • コードを読むときも、私はので、私は未来を知ってもらうことを計画、多くの注目があることがわかりました。中の注目のさまざまながありますレビュー〜についてのマーク
公開された120元の記事 ウォン称賛35 ビュー170 000 +

おすすめ

転載: blog.csdn.net/u012328476/article/details/104637423