BLEU机器翻译评价指标学习笔记
BLEU(bilingual evaluation understudy),双语互译质量评估辅助工具,主要用来评估机器翻译质量的工具。
评判思想:机器翻译结果越接近专业人工翻译的结果,则越好。
实际工作:判断两个句子的相似程度。
计算公式:
BLEU−N=BP⋅exp(n=1∑Nwnlogpn)
其中,BP为惩罚因子,
pn为多元精度,
wn为多元精度对应的权重。
多元精度n-gram precision
原始多元精度
原文:猫坐在垫子上
机器译文: the the the the the the the.
参考译文:The cat is on the mat.
一般情况,1-gram可以代表原文有多少词被单独翻译出来,可以反映译文的充分性,2-gram以上可以反映译文的流畅性,它的值越高说明可读性越好。
改进多元精度
Countwi,jclp=min(Countwi,RefjCountwi)Countclp=max(Countwi,jclp),i=1,2,3⋯pn=∑C′∈Candidates∑n−gram′∈C′Countclip(n−gram′)∑C∈Candidates∑n−gram∈CCountclip(n−gram)
其中,
Countwi为单词
wi在机器译文中出现的次数,
RefjCountwi为单词
wi在第
j个译文中出现的次数,
Countwi,jclp为单词
wi对于第
j个参考译文的截断计数,
Countclp为单词
wi在所有参考翻译里的综合截断计数,
pn为各阶N-gram的精度,
pn的公式分子部分表示
n元组在翻译译文和各参考译文中出现的最小次数之和,分母部分表示
n元组在各参考译文中出现的最大次数之和。
此时对于异常情况:
Countclp=2,此时,一元精度为2/7,避免了常用词干扰问题。
因此,改进的多元精度得分可以用来衡量翻译评估的充分性和流畅性两个指标。
多元精度组合
随着
n的增大,精度得分总体成指数下降,采取几何加权平均,使各元精度起同等作用。
pave=exp(n1⋅i=1∑Nwn⋅logpn)
其中,
pave为多元精度组合值,
pn为n元精度,
wn为各元权重。
通常,BLEU-4为经典指标,
N取4,
wn取1/4。
惩罚因子
BP={1 ifc>re1−r/cifc≤r
其中,
c是机器译文的词数,
r是参考译文的词数。
惩罚因子主要用来惩罚机器译文与参考译文长度差距过大情况。
总结