【论文笔记】Distilling Translations with Visual Awareness:先翻译、再完善(下)

这是我参与2022首次更文挑战的第34天,活动详情查看:2022首次更文挑战

上期内容:【论文笔记】Distilling Translations with Visual Awareness:先翻译、再完善(上) - 掘金 (juejin.cn)

本文收录于 ACL 2019 ,第一作者 Julia Ive 来自谢菲尔德大学。
原文链接:Distilling Translations with Visual Awareness

Experiments

Compared with Baseline

作者对比了基于 Transformer 架构的 MMT 和本文提出的带 deliberation decoder 的 Transformer 架构的效果,以及上述两种架构在三种图像输入策略之下各自的表现。结果如图:

image.png

首先,使用 deliberation decoder 的模型整体比 baseline 表现要好不少,在 METEOR 和 BLEU 上都平均有 1 个点的提升。

其次,不管是 baseline 模型还是本文的模型,含有图像信息并没有给翻译效果带来什么大的改进。

Manual inspection

对于这个结果,作者进一步进行了人工评估实验,找了一些专业翻译者和母语者,在给定图像的情况下,对 base+att、del、del+obj 三种模型的翻译结果进行打分,平均得分结果如下:

image.png

人工评估实验表明,del 模型倾向于改善第一道输入的语法性和准确性。对于德语而言,第二通道解码器最常进行的修改是形容词和动词的替换( 15% 和 12% )。对形容词的修改主要是语法上的,对动词的修改则是语境上的(如把“跑”改成另一种表示更快速度的“跑”);而对于法语,15%的变化是名词的替换,这与法语的文化背景有关。

Source degradation

此外,作者还改动了源句,在源句中引入噪声,即 source degradation,考察了这些模型处理这些问题的能力。其中,改动操作包含以下三种:

  • Random content words:随即丢弃源内容词。用 spacy 工具包标记句子中的各种词性的词,然后用 blank 替换;
  • Ambiguous words:作者用 MLT 数据集(提供了 Multi30K 数据集中的多义词)找出了源句中的多义词,然后用 blank 替换;
  • Person words:对应于人这个类别的词替换成 blank 。

结果如下:

image.png

对于德语而言,del+obj 是最成功的配置,但是 del 和 del+sum 相比于 base 没啥改进;对于法语而言,所有 del 模型相较于 base 都有比较明显的改善。这种差异来源于法语和德语两种语言的特点,作者在文中进行了比较详细的解释,这里不再赘述。

图像信息对 person words 被替换的情况更有帮助,与 del 相比 del+obj 解决的 blank 多 10% 。

Summary

作者提出了一种更好的 MMT 方案,基于先翻译再优化的思想,能更好地利用文本和图像上下文。作者验证了 deliberation 网络在 MMT 中的有效性,这种设计以及后续添加的视觉特征都能让模型在面对噪声输入时更具鲁棒性。

Guess you like

Origin juejin.im/post/7067178260873871368