对话系统的评分标准

task-oriented:人工评分的监督数据,

开放式对话系统:使用word-embedding based similarity metrics来判断

具体来说有一下几种:

BLEU

METEOR

ROUGE

Embedding-Based

RUBER(17年):在train的时候使用ground truth和训练结果对比,进行pooling处理得到最小和最大值contat。然后使用cos 。

                在test的时候使用query和answer通过矩阵变换,得到一个数值。觉得这个方法还挺有意思的。

猜你喜欢

转载自blog.csdn.net/yagreenhand/article/details/86317566
今日推荐