【论文笔记】多模态翻译效果也就那样,视觉信息到底有没有用?(下)

这是我参与2022首次更文挑战的第36天,活动详情查看:2022首次更文挑战

上期内容:【论文笔记】多模态翻译效果也就那样,视觉信息到底有没有用?(上) - 掘金 (juejin.cn)

本文是 NAACL-HLT 2019 的最佳短文,作者来自勒芒大学和帝国理工学院。
原文链接:Probing the Need for Visual Context in Multimodal Machine Translation

Experiments

首先再明确一下用于对比的四个模型:

  • NMT:纯文本 baseline
  • INIT:用视觉特征初始化编码器和解码器
  • DIRECT:多模态注意力
  • HIER:DIRECT 的改良版(加了一个注意力层)

Normal

作者先直接用四个模型在 test2017 上测试了 METEOR 得分(下表左),MMT 相较于 NMT 有微弱提升。

image.png

Color Deprivation

作者对源句进行了 color deprivation ,即把源句中描述颜色的词掩蔽掉,然后用模型来翻译,期待模型给出正确的结果。示例如下:

image.png

结果如上表最后一列(Dc)所示,MMT 相比于纯文本 baseline 已经有了显著的提升。注意,这是在整个数据集上的结果,如果只关注含有色彩描述的句子的子集,这个提升更明显,其中,多模态注意力提升约12%,INIT 提升约4%,说明复杂的模型更有利于视觉信息的提取。

Entity Masking

作者又进行了 entity masking,即把源句中的实体掩蔽掉,示例如下:

image.png

这次源句退化得更严重,因为被掩蔽的规模更大了,而 MMT 的提升也更明显,DIRECT 直接提升了4.2个点;作者根据 Elliott 等人的思路,又进行了 incongruent decoding 来比较,所谓 incongruent (不一致) decoding ,作者以相反的样本顺序输入视觉特征,打破图像-句子对齐。结果显示效果严重下降,实验结果如下图。作者换了其它语言,也得到了相似的结果。

image.png

这说明图像信息更重要了,作者可视化了注意力权重,在下面这个例子中,MMT 成功注意到了图像的正确位置,并且把一个错误单词 song 正确翻译成了 son 。

image.png

Progressive Masking

最后,作者做了渐进式掩蔽实验,逐步对一个句子进行退化操作,随着源句中存留的单词数量逐渐降低到0,三个 MMT 模型的优势越来越大,在源句完全退化时,比 NMT 高了约7个点。

image.png

作者还测试了模型在源句不同退化程度下的图像灵敏度,随着源句信息量的增加,模型的表现差异越来越小,图像的重要性越来越低。

image.png

最后,作者还做了一个对比性的 "蒙蔽 "实验,用 DIRECT 模型做 incongruent decoding,并从头开始训练。结果表明,模型学会了忽略视觉信息,取得了与 NMT 模型相当的效果。

Summary

作者通过源句退化和使用不一致的图像特征等方法研究了 MMT 对视觉信息的利用情况,证明了 MMT 中视觉信息的有用性,比如利用视觉信息减轻噪音,在翻译中对源句进行纠错等。

Guess you like

Origin juejin.im/post/7067931153864327182