【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

前言

方法

  • 基于大模型,提出一个unified multi-dimensional evaluation method LLM-EVAL,不依赖human references和多种prompts,来从多个角度评测对话

    • 其实就是利用一个 prompt,仅调用一次模型,能够在多个维度评估对话
    • 有两种设定,分别在0-5的区间和0-100的区间进行评分

    在这里插入图片描述

    • unified evaluation schema: 一个自然语言指令,定义任务以及评估标准(包含多个维度,以及每个维度的分数区间)

    • single prompt for evaluation: 包含必要的对话上下文和需要评估的 target response

      在这里插入图片描述

      • reference是可选的
  • 输入:unified evaluation schema + single prompt for evaluation

  • 输出:

在这里插入图片描述

结论

在这里插入图片描述

  • DSTC 10 hidden test datasets 上,0-5和0-100两个版本都好,0-5的还更好一些

在这里插入图片描述

  • 在带有human reference的数据集上,两种设定的效果都好,0-100的最好

在这里插入图片描述

  • 在不带human reference的数据集上,两种设定效果都好,说明在可以作为reference-free的评估方法
  • 上面三张表,在各种数据集上的效果都很不错,说明该指标评估效果好,且鲁棒性好,泛化性强

在这里插入图片描述

  • dialogue-optimized LLMs Claude ChatGPTLLM-EVAL 上效果更好,小一些的模型 Anthropic Claude-instant虽然没达到最好效果,但是也能用

  • 使用greedy decoding比nucleus sampling生成 LLM-EVAL效果更好

猜你喜欢

转载自blog.csdn.net/qq_52852138/article/details/131813445