1、ブルー:
BLEU の考え方 (大きいほど良い): 翻訳候補と参照翻訳の N グラムの重複度を比較し、重複度が高いほど翻訳の品質が高くなります。ユニグラムは単語の翻訳の精度を測定するために使用され、高次の N グラムは文の翻訳の流暢さを測定するために使用されます。
2、ルージュ:
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、精度 (候補訳文の N グラムが参考訳文に出現したかどうか) ではなく、再現率 (参考訳文の N グラムが出力にいくつ出現したかに焦点を当てる) に焦点を当てます。
- rouge-n: ngram 共起統計に基づく
- Rouge-l: 最長共通部分列の共起再現率と精度に基づく F1 計算
- rough-w: 重み付きの最長共通部分列の共起再現率と精度の F1 計算
- rouge-s: 不連続バイナリグループの共起再現率と精度の F1 計算
- 一般用:青-4、赤-1、赤-1、赤-2
参考:
https://blog.csdn.net/u012744245/article/details/123589005