基础大模型能像人类一样标注数据吗？

自从 ChatGPT 出现以来，我们见证了大语言模型 (LLM) 领域前所未有的发展，尤其是对话类模型，经过微调以后可以根据给出的提示语 (prompt) 来完成相关要求和命令。

然而，直到如今我们也无法对比这些大模型的性能，因为缺乏一个统一的基准，难以严谨地去测试它们各自的性能。评测我们发给它们的指令以及对话模型本身，从本质上来讲就很困难，毕竟用户的评价标准都是围绕对回答的质量的主观感受; 而现有的自然语言处理任务的性能评价标准，却大多局限于特定指标和某些定量标准。

在这一领域，通常当一个新的大语言模型发布时，都会这么宣传: 我们的模型比在百分之多少的情况下优于 ChatGPT。这句话的潜在意思是，模型使用某些基于 GPT-4 的评价标准，在百分之多少的情况下优于 ChatGPT。这些分数实际想表达的是一种不同评价标准的代替方案: 由人类打标者提供的分数。利用人类反馈的强化学习 (RLHF) 大量提供了对比两个模型的接口和数据。这些从 RLHF 而来的数据被用来训练一个奖励模型，用以评判哪个回答是更好的，但为模型输出结果进行打分和排名的这一思想已经演变成了一种更通用的模型评测工具。

这里我们展示一些示例，分别来自我们的盲测数据中的 instruct 和 code-instruct 两个子集合。

从迭代速度来讲，使用一个语言模型去评测模型输出已经十分高效了，但这里遗漏了一个大问题: 有没有调研这个下游的快捷工具是否针对原有的评测形式进行了校准对齐。在本文中，我们将会详细了解: 通过扩展 Open LLM Leaderboard 评测体系，哪些时候你需要相信或不相信你从你选择的大语言模型中得到的数据标签。

现如今，各种排行榜已经开始涌现，比如 LMSYS 以及 nomic / GPT4All 等，用以从各种角度对比模型。但我们仍需要一个更完整的资源，用以对比模型性能。有些人会使用现有的 NLP 测试基准，看一看提问回答的能力; 还有些人会用一些众包的、开放式问答的排行榜。为了为大家提供一个更全面通用的评测方法，我们扩展了 Hugging Face Open LLM Leaderboard，囊括了各个自动化的学术评测基准、专业人员的打标，以及 GPT-4 相关的评测方法。

评估开源模型的偏好
在训练阶段的任何时间点，人工组织数据的需求从内在来看都是成本很高的。迄今为止，在这一领域仅存在少量人工标注的偏好数据集可以用来训练大模型，例如 Anthropic’s HHH data、OpenAssistant’s dialogue rankings 或是 OpenAI 的 Learning to Summarize / WebGPT 数据集。相同的偏好标签也可以用模型输出获取，用以构建两两模型间的 Elo 排序 (Elo 排序是常用于象棋或游戏中的一种通过两两对比构建全局排行榜的方法，排名越高越好)。当给到标注者的文本源是由我们关注的模型生成时，数据就变得很有趣了。

训练模型的过程会发生很多意想不到的趣事，所以我们需要对各个开源模型做一个更严格的对照实验，看看偏好收集过程如何转化为当今盛行的 GPT-4/ChatGPT 偏好评估，以及与它们的差异对比。

为了这一目的，我们组织了一个指令提示语的集合，以及对应的一系列由开源模型 ( Koala 13b、Vicuna 13b、OpenAssistant 12b、Dolly 12b) 完成的补全。

我们从 Self-Instruct 评测集中收集了一系列高质量、由人编写的提示语，同时也从数据商那里收集了一些早期的讨论类对话数据，涵盖了生成、头脑风暴、问答、总结、常识、编程等各种任务类别。总共有 327 条覆盖这些任务类型的提示语，其中 25 条是编程相关的。

这里我们列出一些提示语相关的数据统计，包括其句子长度。

借助这些数据，我们开始使用 Scale AI 和 GPT-4 去评估模型质量。我们针对偏好模型使用 Antropic 的方法，并要求打分者去依照利克特 (Likert) 量表打 1 到 8 分。在这个范围内，1 分代表打分者相比第一个模型，对当前模型有强烈偏好; 4 分表示基本与第一个模型持平; 8 分则代表评价者的观点与 1 分完全相反。

基础大模型能像人类一样标注数据吗？

猜你喜欢