这是我参与2022首次更文挑战的第36天,活动详情查看:2022首次更文挑战
本文是 NAACL-HLT 2019 的最佳短文,作者来自勒芒大学和帝国理工学院。
原文链接:Probing the Need for Visual Context in Multimodal Machine Translation
Experiments
首先再明确一下用于对比的四个模型:
- NMT:纯文本 baseline
- INIT:用视觉特征初始化编码器和解码器
- DIRECT:多模态注意力
- HIER:DIRECT 的改良版(加了一个注意力层)
Normal
作者先直接用四个模型在 test2017 上测试了 METEOR 得分(下表左),MMT 相较于 NMT 有微弱提升。
Color Deprivation
作者对源句进行了 color deprivation ,即把源句中描述颜色的词掩蔽掉,然后用模型来翻译,期待模型给出正确的结果。示例如下:
结果如上表最后一列(Dc)所示,MMT 相比于纯文本 baseline 已经有了显著的提升。注意,这是在整个数据集上的结果,如果只关注含有色彩描述的句子的子集,这个提升更明显,其中,多模态注意力提升约12%,INIT 提升约4%,说明复杂的模型更有利于视觉信息的提取。
Entity Masking
作者又进行了 entity masking,即把源句中的实体掩蔽掉,示例如下:
这次源句退化得更严重,因为被掩蔽的规模更大了,而 MMT 的提升也更明显,DIRECT 直接提升了4.2个点;作者根据 Elliott 等人的思路,又进行了 incongruent decoding 来比较,所谓 incongruent (不一致) decoding ,作者以相反的样本顺序输入视觉特征,打破图像-句子对齐。结果显示效果严重下降,实验结果如下图。作者换了其它语言,也得到了相似的结果。
这说明图像信息更重要了,作者可视化了注意力权重,在下面这个例子中,MMT 成功注意到了图像的正确位置,并且把一个错误单词 song 正确翻译成了 son 。
Progressive Masking
最后,作者做了渐进式掩蔽实验,逐步对一个句子进行退化操作,随着源句中存留的单词数量逐渐降低到0,三个 MMT 模型的优势越来越大,在源句完全退化时,比 NMT 高了约7个点。
作者还测试了模型在源句不同退化程度下的图像灵敏度,随着源句信息量的增加,模型的表现差异越来越小,图像的重要性越来越低。
最后,作者还做了一个对比性的 "蒙蔽 "实验,用 DIRECT 模型做 incongruent decoding,并从头开始训练。结果表明,模型学会了忽略视觉信息,取得了与 NMT 模型相当的效果。
Summary
作者通过源句退化和使用不一致的图像特征等方法研究了 MMT 对视觉信息的利用情况,证明了 MMT 中视觉信息的有用性,比如利用视觉信息减轻噪音,在翻译中对源句进行纠错等。