最近在学习机器翻译(NMT),做如下总结:
1)刚开始时,在RNN的基础上引入attention,即将两者结合应用,完整解释并附上完整code。详见下链接:
2)接着,Facebook在CNN的基础上引入attention,参见论文:Convolution Sequence to Sequence Learning
3)16年,Google直接推翻以前的模式,用也仅仅用attention就可以达到效果,甚至更好。参见论文:Attention is all you need.
4)接着Karim在Google的基础上进行改进,利用Weighted Transformer架构达到了更好的Performance.参见论文:Weighted Transformer Network For Machine Translation.