BLEU:Bilingual evaluation understudy

BLEU:Bilingual evaluation understudy

NMT/BLEU

N-gram

比较机翻和答案之间n组词的相似的一个占比

原文:今天天气不错
机翻:It is a nice day today
答案:Today is a nice day

1-gram:

机翻一共6个词 5个都命中
1-gram precision 5/6

3-gram:

机翻一共可以分为四个3-gram的词组 其中两个可以命中答案
3-gram precision 2/4

一词类推可以计算到N-gram的precision
一般来说,1-gram的结果代表了有多少个词被单独翻译出来了,反映了翻译的充分性。2-gram以上的结果反映了译文的流畅度,越高翻译可读性高。

Precison and Modified n-gram precision

机翻: the the the the the the the.

答案 1: The cat is on the mat.

答案 2: There is a cat on the mat.

每一个句子都可以得到一个Modified n-gram precision,一个句子不能代表文本翻译的水平高低,于是把一段话或者所有翻译句子的结果综合起来:

(将候选段落的所有n-gram进行了截断统计作为分子,分母是候选段落的n-gram的个数)

比如说Modified 1-gram precision就分母是机翻答案有多少个单词。
然后分子是 所有不重复单词求COUNTclip然后加起来。

多个modified n-gram precision进行组合

unigram和n-gram下的指标进行组合使用

随着n-gram的增大,Precision总体上成指数下降的,而且可以粗略的看成随着n而指数级的下降。我们这里采取几何加权平均,并且将各n-gram的作用视为等重要的,即取权重服从均匀分布。
(Wn 权重 这里当做一样的)

Sentence brevity penalty

有一个大问题 ,短译句容易得高分!

最佳匹配长度 :best match length

如果机翻和任意一个答案长度相同,那就认为满足最佳匹配长度。这种情况下就不惩罚了。

c:机翻总长度
r:答案总长度

(通常这个N取4,wn=1/4,这就是很多论文里面的一个经典指标Bleu4)

猜你喜欢

转载自www.cnblogs.com/helloeboy/p/9442205.html