论文阅读:Attention is all you need

文章目录

前言

在seq2seq中, encoder隐层的输出可以当作K, decoder隐层的输出作为Q, 这里不能反过来, 因为我们是根据注意力过滤掉K的内容, 所以K对应encoder

比如下面这张图, Q是running, 就是问谁在跑, K 注意到女孩, decoder发出Q, 对应询问什么样的信息最重要, encoder则给出相应的K

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/landing_guy_/article/details/121008100