NLP-文本摘要:Rouge评测方法【Rouge-1、Rouge-2、Rouge-L、Rouge-S】

《原始论文:Rouge: A package for automatic evaluation of summaries》

Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

一、Rouge-N(Rouge-1,Rouge-2)

1、公式

在这里插入图片描述

分母是参考摘要(人工摘要/标准答案)中n-gram的总数量,分子是模型生成的摘要和参考摘要共有的n-gram的个数,即召回率(Recall)。

Rouge-N: 是对应的Rouge-1 : 1-gram, Rouge-2: 2-gram,Rouge-3: 3-gram。

2、举例

自动摘要 Y Y Y(一般是模型生成的):

the cat was found under the bed

参考摘要, X X X(gold standard ,人工生成的):

the cat was under the bed

则模型生成的summary的1-gram、2-gram如下,N-gram以此类推:

# 1-gram reference 1-gram 2-gram reference 2-gram
1 the the the cat the cat
2 cat cat cat was cat was
3 was was was found was under
4 found under found under under the
5 under the under the the bed
6 the bed the bed
7 bed
count 7 6 6 5

Rouge-1 ( X , Y ) = 6 6 = 1.0 \text{Rouge-1}(X,Y) = \cfrac66=1.0 Rouge-1(X,Y)=66=1.0:分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)

Rouge-2 ( X , Y ) = 4 5 = 0.8 \text{Rouge-2}(X,Y) = \cfrac45=0.8 Rouge-2(X,Y)=54=0.8

Rouge-N 优点:直观,简洁,能反映词序。

Rouge-N 缺点:区分度不高,且当N>3时,ROUGE-N值通常很小。

应用场景:

  • ROUGE-1:短摘要评估,多文档摘要(去停用词条件);
  • ROUGE-2: 单文档摘要,多文档摘要(去停用词条件);

二、Rouge-L

L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:

在这里插入图片描述
其中:

  • L C S ( X , Y ) LCS(X,Y) LCS(X,Y) X X X Y Y Y 的最长公共子序列的长度;
  • m m m n n n 分别表示参考摘要(人工生成)和自动摘要(模型生成)的长度(一般就是所含词的个数);
  • R l c s R_{lcs} Rlcs P l c s P_{lcs} Plcs ​分别表示召回率和准确率。
  • F l c s F_{lcs} Flcs ​即是我们所说的Rouge-L。

在DUC中, β β β 被设置为一个很大的数,所以Rouge-L几乎只考虑 R l c s R_{lcs} Rlcs​,与上面所说的一般只考虑召回率对应。

优点:使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。

缺点:只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景:单文档摘要;短摘要评估。

三、Rouge-S

即使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”.

优点:考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

缺点:若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。

应用场景:单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);




参考资料:
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
文本摘要的评测方法:Rouge-1, Rouge-2, Rouge-L, Rouge-S
自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S
ROUGE评价方法

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/121404039