【论文笔记】DCNN:胶囊网络与动态路由,为MMT提取高质量视觉特征

这是我参与2022首次更文挑战的第30天,活动详情查看:2022首次更文挑战

本文发表于 ACM MM 2020,第一作者林欢为厦门大学 2019 级硕士生,通讯作者为苏劲松老师。
原文链接:Dynamic Context-guided Capsule Network for Multimodal Machine Translation

Motivation

过去的多模态机器翻译模型对视觉信息的处理一般可以分为三类:

  1. 将图像的全局视觉特征作为视觉上下文;

    【论文笔记】Attention-based Multimodal Neural Machine Translation - 掘金 (juejin.cn)

  2. 利用注意力机制提取视觉上下文;

    其中,要么在每一个时间步利用注意力机制从图像中提取视觉上下文:

    【论文笔记】Doubly-Attentive Decoder:多模态注意力经典之作 - 掘金 (juejin.cn)

    要么直接将视觉特征作为源侧的隐藏状态。

    【论文笔记】Incorporating Global Visual Features into Attention-Based NMT - 掘金 (juejin.cn)

  3. 学习多模态联合表征。

    【论文笔记】基于图的多模态融合编码器:当 GNN 遇上多模态机器翻译 - 掘金 (juejin.cn)

    【论文笔记】再读 UNITER:表征学习通用模型预训练,弥合图文语义鸿沟 - 掘金 (juejin.cn)

    【论文笔记】Multimodal Transformer:多模态机器翻译中,视觉信息不能喧宾夺主 - 掘金 (juejin.cn)

然而,注意力机制缺乏模态间的语义互动,而且单步的注意力容量有限,不能容纳足够的视觉信息;而在另外两种方法中,固定的视觉上下文不适合在生成翻译时对观察到的变化进行建模。本文提出了一种动态语境引导的胶囊网络(DCCN)用来应对上述问题。

胶囊网络:什么是胶囊网络?【知多少】_哔哩哔哩_bilibili

Method

在解码的每个时间步,首先用标准的源-目标注意力来产生该时间步的源句上下文向量。接下来,DCCN 将这个上下文向量作为输入,并在动态路由过程中用它来指导相关视觉上下文的迭代提取,然后更新多模态上下文。作者引入两个平行的 DCCN 来提取不同粒度的视觉特征(全局/区域视觉特征),得到两个多模态上下文向量,将其融合并纳入解码器以预测目标词。

Model

Overview

模型主要还是基于 Transformer ,但是加了两个 DCNN 。模型结构如下:

image.png

编码器与普通的 Transformer encoder 结构相同,不再赘述。

解码器是 Transformer decoder 的扩展,前 L d 1 L_d-1 层都相同,唯一不同的是最后一层,加了两个 DCNN 来学习多模态表示。其中,第一个 DCNN 用于接收全局视觉特征,由 ResNet-50 提取,并投影到一个 196x256 的矩阵中;第二个 DCNN 用于接受区域视觉特征,值得注意的是,这里的区域视觉特征并不是图像嵌入,而是用 R-CNN 识别图像区域并在 Visual Genome 的 1600 多个类别上预测分类结果的概率分布,用分类结果(词嵌入)的加权和作为该区域的特征。

DCNN

DCNN 由 low-level 胶囊、high-level 胶囊和多模态上下文胶囊构成。low-level 胶囊先从图像输入中提取视觉特征,然后 high-level 胶囊按照多模态上下文胶囊的指示(计算皮尔逊相关系数)从 low-level 胶囊提取的视觉特征中提取相应的视觉上下文。整体结构如图:

image.png

具体流程如下:

  1. 输入:该时间步的源端上下文、图像输入;
  2. low-level 胶囊初始化。将每一个 low-level 胶囊 ui 用图像输入初始化;
  3. 多模态上下文胶囊初始化。用源端上下文初始化多模态上下文胶囊 mj ;
  4. 根据 low-level 和 high-level 胶囊的维度,用 Wij 矩阵对 ui 进行一个映射,得到中间层 u_j|i;
  5. ρij 表示 mj 和 ui 之间的相关性,随后用于更新 bij ,bij 经过 softmax 操作后得到 cij ,cij 用来决定中间层对 high-level 胶囊层的更新;
  6. high-level 胶囊层进而用来计算多模态相关性 mj,用来更新 ρij。
  7. 输出:多模态上下文。

总的来说,作者依靠源句上下文计算与图像特征的相关性,以此形成一种动态路由机制来指导视觉特征的迭代提取,可以有效地提取翻译所需要的视觉信息,融入多模态上下文,用于解码生成目标句。

Experiments

Results

作者选取了几个广泛使用的 MMT 模型作为 baseline:

  • Transformer:基于 Transformer 的纯文本机器翻译;
  • Encoder-attention:在Transformer中加入了一个基于编码器的视觉注意力机制;
  • Doubly-attention:引入了一个额外的视觉注意子层来利用视觉特征;
  • Stochastic attention:一种随机的、基于抽样的注意力机制,在每个时间步长只关注图像的一个空间位置;
  • Imagination:一种多任务学习的模型,包含翻译和以视觉为基础的表述预测;
  • Fusion-conv:采用了一个单一的前馈网络来建立每个时间点的视觉特征和目标侧隐藏状态之间的注意力对齐,其中考虑了图像的所有空间位置来推导出上下文向量;
  • Trg-mul:使用元素相乘法对每个目标词的嵌入与视觉特征进行调制。
  • Latent Variable MMT:设计了一种潜变量用于 MMT,可被视为图像及其目标语言描述的多模态随机嵌入。
  • Deliberation Network:基于 translate-and-refine 策略,视觉特征只在第二阶段被解码器使用。

英译德翻译任务结果如下:

image.png

DCCN 在之引入 1M 额外参数的情况下,在三个数据集上的表现几乎超越了所有其它模型。

  • 优于 Encoder-attention :Encoder-attention 用静态源隐藏状态来提取视觉背景,而 DCCN 利用特定时间步的源侧上下文来提取视觉上下文;而胶囊网络的动态路由机制通过计算不同模态之间的相关性,可以产生质量更高的多模态上下文。
  • 优于 Doubly-attention : Doubly-attention 也使用了特定时间步的源侧上下文,但 DCCN 还是取得了更好的效果,这也表明了动态路由机制的有效性。

Ablation Study

作者针对本文的几个创新点进行了消融实验。

image.png

从结果中可以看出,区域视觉特征和全局视觉特征都是有用的,而动态路由机制相较于传统的注意力机制也能更好地提取两种视觉特征。第 7 行作者移除动态路由中的上下文引导,用标准的胶囊网路来提取视觉特征,性能也急剧下降,说明在不同时间步中动态提取视觉特征的方案也是有效的。

Summary

本文将胶囊网络方法用于 MMT ,并利用源句上下文来动态指导不同时间步的视觉特征提取。实验证明,该方案充分地利用模态之间的语义互动,提取了有效的视觉信息,在 MMT 任务中达到了 SoTA 。

Guess you like

Origin juejin.im/post/7065707269152833566