注意力的厉害模型transformer学习

  1. transformer将句子中所有单词的相互关系都考虑
    1. 可能局部信息从而丢失很多。
    2. 可以并行
    3. decoder中多了mask multi,这样就可以实现从前到后输出
  2. ------------------------
  3. 并行是怎么实现的
  4. 实现细节,为什么要有Q,K,V。这样就可以捕捉些什么呢
  5. Transformer中Attention机制将任意位置的两个单词的距离转换成了1?
    1. 使用的position vector知识考虑到单词的绝对位置
  6. https://zhuanlan.zhihu.com/p/48508221写的很好,https://zhuanlan.zhihu.com/p/44731789
  7. Scaled Dot-Product Attention:

     Google 论文的主要贡献之一是它表明了内部注意力在机器翻译 (甚至是一般的Seq2Seq任务)的序列编码上是相当重要的,而之前关于 Seq2Seq 的研究基本都只是把注意力机制用在解码端。
  8. transformer是注意力厉害,然而用在问答系统中,不知道多不多

https://zhuanlan.zhihu.com/p/49271699下一步要看的

猜你喜欢

转载自blog.csdn.net/yagreenhand/article/details/84726237