2022年机器翻译评测报告

近日,Intento公司与e2f公司合作发布《2022年机器翻译评测报告》,从9个行业领域、11个语言对评测了全球市场31个机器翻译引擎。该报告旨在对机器翻译供应商的机器翻译性能进行深入洞察和分析,为如何选择最适合的机器翻译引擎提供参考。

机器翻译评测方法

(一) 自动评估机器翻译质量方法

  • hLEPOR-句法相似性:比较基于标记的n-grams的相似性。惩罚漏译和多译;惩罚意译/同义词;惩罚译文的不同长度。
  • BERTScore-语义相似性:分析机器翻译的BERT分数和参考译文之间差距。不惩罚意译/同义词。对于BERT模型中代表性不足的领域和术语来说,该评测方法可能是不可靠的。
  • TER-句法相似性:评估机器翻译结果转化成参考译文所需要进行译后编辑(增加、删除、移位和替换)的次数。惩罚意译/同义词;惩罚译文的不同长度。
  • PRISM-语义相似性:对机器翻译结果转述为参考译文进行评估。惩罚流畅性和充分性错误;不惩罚意译/同义词;对韩语不适用。
  • COMET-语义相似性:使用来自机器翻译生成的译文,参考译文和源语言文本预测机器翻译质量。它利用这些表示来学习预测质量分数,该质量分数被显式优化以与人类对翻译质量的判断相关联。实现了最先进的与人工评测的相关性水平。可能会对意译/同义词进行惩罚。
  • SacreBLEU-句法相似性:比较机器翻译的结果与参考译文基于标记的相似性,并在整个语料库取平均值。惩罚漏译和多译;惩罚意译/同义词;惩罚译文的不同长度。

(二)报告为什么选用COMET?

报告对15个语言对和21个不同的机器翻译模型进行了研究。其中,将几个自动评估方法与人工评测进行了比较,发现在15个语言对中的10个语言对中,COMET与人工评测的相关性优于其他评测方法。
在这里插入图片描述

从上述皮尔森相关系数(Pearson correlation coefficient)可以看出,在英-德、英-葡、英-荷、英-法、英-西、英-朝鲜语语言对中, 相比BERTScore、hLEPOR、TER,COMET和人工评测的相关性更接近。

猜你喜欢

转载自blog.csdn.net/weixin_42452716/article/details/134643412