机器学习笔记 - 什么是BLEU分数?

1、什么是BLEU分数?

        BLEU(BiLingual Evaluation Understudy)或双语评估研究是一种基于分数的方法,用于评估由自然语言处理 (NLP) 系统执行的翻译工作的质量。

        基本上,BLEU将机器翻译生成的文本与人类执行并被认为是正确的参考翻译进行比较。

        BLEU NLP 评分在其评估过程中,将 MT 句子与参考翻译中的相应句子进行比较。BLEU根据匹配数和 相似度计算得分。

        该评分系统的范围在 0 和 1 之间。如果匹配完整且完美,则 BLEU 的值等于 1。如果根本没有匹配,则 BLEU 分配的分数为 0。

        获得等于 1 的结果 几乎是不可能的,因为这意味着机器翻译结果与专业翻译的结果完全相同。

        BLEU 分数是一种字符串匹配算法,可为 MT 研究人员和开发人员提供基本的质量指标。它可能是过去 15 年来使用最广泛的 MT 质量评估指标。虽然人们普遍认为 BLEU 指标存在许多缺陷,但即使在神经 MT 的鼎盛时期,它仍然是衡量 MT 系统输出的主要指标。

2、如何进行BLEU测量?

        1、一种或多种人工参考翻译。这应该是未用于构建系统的数据(训练数据),理想情况下应该是 MT 系统开发人员不知道的。

        2、通常建议使用 1,000 或更多的句子来获得有意义的测量结果。样本集太小可能会因匹配或不匹配的几个句子而显着影响分数。

        3、完全相同的源数据集的自动翻译输出。

        4、执行比较和分数计算的测量实用程序。

        通过将它们与一个或一组高质量的人工参考翻译进行比较,为单个 MT 翻译的片段(通常是句子)打分。当一个句子被两个不同的机器翻译系统翻译时,一个翻译可能会匹配参考正确翻译的 75% 的单词,而第二个机器翻译系统的翻译可能会匹配 55% 的单词。两种 MT 翻译可能都是 100% 正确的,但匹配率为 75% 的翻译将被评估为提供了更高的质量,这似乎有些武断。

        以下示例说明了此潜在问题。一旦我们选择其中一个翻译作为唯一参考,所有其他正确的翻译都会得分较低。

         BLEU 指标在 0 到 1 的范围内对翻译进行评分,以尝试衡量 MT 输出的充分性和流畅性。测试句子得分越接近 1,与人工参考翻译的重叠越多,因此,系统被认为越好。BLEU 分数通常以 1 到 100 的等级表示,以简化沟通,但这不应与准确度百分比相混淆。

        MT 输出只有在与参考人工翻译相同时才会得分 1。但即使是完全相同材料的两个称职的人工翻译也可能仅在 0.6 或 0.7 范围内得分,因为他们可能使用不同的词汇和措辞。我们应该警惕非常高的 BLEU 分数(超过 0.7),因为它可能测量不正确或过度拟合。

        BLEU 指标还为顺序匹配的单词提供了更高的分数。也就是说,如果 MT 翻译中的一串四个单词以相同的确切顺序与人类参考翻译匹配,则它对 BLEU 分数的积极影响比一串两个匹配单词的影响更大。这意味着,如果准确的翻译使用不同但正确的词或以不同词序匹配的词,则会获得较低的分数。

        作为粗略的指导,以下对 BLEU 分数的解释(表示为百分比而不是小数)可能会有所帮助。

3、数学细节

 4、论文参考

https://aclanthology.org/P02-1040.pdfhttps://aclanthology.org/P02-1040.pdf

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/125055325