【论文笔记】在Transformer架构中融合多输入,怎么做效果比较好?(上)

这是我参与2022首次更文挑战的第37天,活动详情查看:2022首次更文挑战

本文于 2018 年 11 月上传至 arXiv ,作者来自查尔斯大学。
原文链接:Input Combination Strategies for Multi-Source Transformer Decoder

Motivation

之前有很多工作探究了在基于 RNN 的机器翻译中融入视觉信息的方法,即基于 RNN 的 MMT,但是没有人研究过如何在纯 Transformer 架构融入视觉信息。作者希望对此进行探究,顺便在多源机器翻译(用同一个句子的多语言源句来得到目标语言句)任务中测试了一下效果。

Related Works

已有的工作中,有人把不同模态的输入投影到一个共享空间,直接在 RNN 中利用该向量或者利用一个层次注意力层来计算 attention ,比如上次介绍的论文在实验中用的 HIER(【论文笔记】多模态翻译效果也就那样,视觉信息到底有没有用?(上) - 掘金 (juejin.cn));还有人用一个门控机制来结合多模态上下文向量,或者把门控机制引入 Transformer 。除此之外,还有一些不适合在 Transformer 中使用的方法,在此不一一列举。

Method

作者针对 Transformer 架构设计了一系列融合多输入的方法,然后将这些方法用在多模态机器翻译(MMT)和多源机器翻译(MSMT)任务中。

Strategies

作者提出了四种输入融合策略,通过改造 Transformer decoder 来实现,其中,前两种(Serial 和 Parallel) 是多种输入独立编码,而后两种(flat 和 hierarchical)是对多种输入的联合分布进行建模。

1. Serial

image.png

每种输入用一个 encoder 来编码,然后逐一(one by one)通过 cross-attention 来计算编-解码器注意力。第一个 cross attention 的查询集是由前面的自注意力计算出来的上下文向量的集合,后面的则是前一个子层的输出,子层之间残差连接。

2. Parallel

image.png

跟 Serial 类似,只不过不是串行,而是把 cross-attention 得到的两个上下文向量加在一起。编码器均以自注意力的输出为查询集。

3. Flat

image.png

把所有 encoder 的隐藏状态拼接在一起作为 k 和 v,跟 HIER 不同的是,HIER (基于 RNN)需要将encoder 的隐藏状态投影到一个共享空间,而本文基于 Transformer 架构,直接用这些隐藏状态作为 q 和 v 。

4. Hierarchical

image.png

先独立计算各输入的 attention ,然后分别计算 cross-attention ,在不同输入对应的上下文之间计算注意力。


那么结果怎么样呢?下期见分晓 (●'◡'●)~

Guess you like

Origin juejin.im/post/7068209550196736031