【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs - 代码天地

【论文阅读】Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with LLMs

企业开发 2023-09-05 22:08:17 阅读次数: 0

前言

该文章提出一种利用大模型对open-domain对话进行评估的方法。主要利用一个Prompt，来指示LLMs一次性输出相应的多个指标
原文地址：LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models

方法

基于大模型，提出一个unified multi-dimensional evaluation method LLM-EVAL，不依赖human references和多种prompts，来从多个角度评测对话
- 其实就是利用一个 prompt，仅调用一次模型，能够在多个维度评估对话
- 有两种设定，分别在0-5的区间和0-100的区间进行评分
- unified evaluation schema: 一个自然语言指令，定义任务以及评估标准（包含多个维度，以及每个维度的分数区间）
- single prompt for evaluation: 包含必要的对话上下文和需要评估的 target response
  - reference是可选的
输入：unified evaluation schema + single prompt for evaluation
输出：

在这里插入图片描述

结论

在这里插入图片描述

在 DSTC 10 hidden test datasets 上，0-5和0-100两个版本都好，0-5的还更好一些

在这里插入图片描述

在带有human reference的数据集上，两种设定的效果都好，0-100的最好

在这里插入图片描述

在不带human reference的数据集上，两种设定效果都好，说明在可以作为reference-free的评估方法
上面三张表，在各种数据集上的效果都很不错，说明该指标评估效果好，且鲁棒性好，泛化性强

在这里插入图片描述

dialogue-optimized LLMs Claude ChatGPT 在 LLM-EVAL 上效果更好，小一些的模型 Anthropic Claude-instant虽然没达到最好效果，但是也能用
使用greedy decoding比nucleus sampling生成 LLM-EVAL效果更好

猜你喜欢

转载自blog.csdn.net/qq_52852138/article/details/131813445

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)