NLP | タスクメトリクスの生成: BLEU、ROUGE

記事ディレクトリ

1、ブルー:

BLEU の考え方 (大きいほど良い): 翻訳候補と参照翻訳の N グラムの重複度を比較し、重複度が高いほど翻訳の品質が高くなります。ユニグラムは単語の翻訳の精度を測定するために使用され、高次の N グラムは文の翻訳の流暢さを測定するために使用されます。

2、ルージュ:

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) は、精度 (候補訳文の N グラムが参考訳文に出現したかどうか) ではなく、再現率 (参考訳文の N グラムが出力にいくつ出現したかに焦点を当てる) に焦点を当てます。

  • rouge-n: ngram 共起統計に基づく
  • Rouge-l: 最長共通部分列の共起再現率と精度に基づく F1 計算
  • rough-w: 重み付きの最長共通部分列の共起再現率と精度の F1 計算
  • rouge-s: 不連続バイナリグループの共起再現率と精度の F1 計算
  • 一般用:青-4、赤-1、赤-1、赤-2







参考:
https://blog.csdn.net/u012744245/article/details/123589005

おすすめ

転載: blog.csdn.net/weixin_43646592/article/details/131795893