Transformer自注意力机制发展历程(原理)

问题:处理机器翻译时,什么模型比较好?

讨论该问题,从模型发展历程阶段1到阶段4展开,从阶段一的模型到阶段4,功能越来越强大,越完善。

阶段1:RNN非常合适

        |-->强项:单词先后顺序会影响句子的意义,擅长捕捉序列关系的它非常合适

        |-->弱项:对于机器翻译来说,单词的对应关系并非一一对应(受限于结构RNN只能处理 N to N,1 to N,N to 1问题,对于N to M很是头疼)

                        |->问题出现(N to M问题如何解决)

阶段2:让人找到了SEQ2SEQ

       依赖ENCODER,DECODER成功解决了翻译两端单词不对等的情况(N to M)

             

                        |->问题出现,如果一个句子太长,翻译精度就会随之下降

阶段3:于是人们找到了ATTENTION,注意力机制

        在SEQ2SEQ结构上,生成每个单词时,都有意识的从原句子中提取生成该单词时最需要的信息,成功摆脱了输入序列的长度限制。

               

                  |->问题出现,这样的计算方式太慢

阶段4:找到了SELF-ATTENTION自注意力机制 = Transformer

        先提取每个单词意义,再一句生成顺序选取所需要的信息,这样结构不仅支持并行计算,效率更高,也更接近人类的翻译方式,效果好到没话说。

                 

猜你喜欢

转载自blog.csdn.net/u013177138/article/details/122126434