2022年机器翻译评测报告

近日，Intento公司与e2f公司合作发布《2022年机器翻译评测报告》，从9个行业领域、11个语言对评测了全球市场31个机器翻译引擎。该报告旨在对机器翻译供应商的机器翻译性能进行深入洞察和分析，为如何选择最适合的机器翻译引擎提供参考。

机器翻译评测方法

（一）自动评估机器翻译质量方法

hLEPOR-句法相似性：比较基于标记的n-grams的相似性。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。
BERTScore-语义相似性：分析机器翻译的BERT分数和参考译文之间差距。不惩罚意译/同义词。对于BERT模型中代表性不足的领域和术语来说，该评测方法可能是不可靠的。
TER-句法相似性：评估机器翻译结果转化成参考译文所需要进行译后编辑（增加、删除、移位和替换）的次数。惩罚意译/同义词；惩罚译文的不同长度。
PRISM-语义相似性：对机器翻译结果转述为参考译文进行评估。惩罚流畅性和充分性错误；不惩罚意译/同义词；对韩语不适用。
COMET-语义相似性：使用来自机器翻译生成的译文，参考译文和源语言文本预测机器翻译质量。它利用这些表示来学习预测质量分数，该质量分数被显式优化以与人类对翻译质量的判断相关联。实现了最先进的与人工评测的相关性水平。可能会对意译/同义词进行惩罚。
SacreBLEU-句法相似性：比较机器翻译的结果与参考译文基于标记的相似性，并在整个语料库取平均值。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。

（二）报告为什么选用COMET？

报告对15个语言对和21个不同的机器翻译模型进行了研究。其中，将几个自动评估方法与人工评测进行了比较，发现在15个语言对中的10个语言对中，COMET与人工评测的相关性优于其他评测方法。
在这里插入图片描述

从上述皮尔森相关系数(Pearson correlation coefficient)可以看出，在英-德、英-葡、英-荷、英-法、英-西、英-朝鲜语语言对中, 相比BERTScore、hLEPOR、TER，COMET和人工评测的相关性更接近。