google的transformer模型的解释

参考这篇文章:

https://blog.csdn.net/mijiaoxiaosan/article/details/73251443

看了下:

最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。

两点:multi-head attention 和 self-attention。

猜你喜欢

转载自www.cnblogs.com/charlesblc/p/10056360.html