开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？

原创：谭婧+ChatGPT

从“古”至今，AI的世界，是一个开源引领发展的世界。

虽然Stable Diffusion作为开源的图像生成模型，将图像生成提到了全新境界，但是ChatGPT的出现，似乎动摇了一些人的信念。

因为ChatGPT是闭源的，而它又是最先进的。

开源拥趸仰天长啸：

什么时候开源大模型（LLM）赶上ChatGPT？

这时，一个脑洞超大的高校研究团队用一篇学术论文严肃回答了相关问题：

“模仿ChatGPT大模型，到底行不行？”

2023 年 5 月 25 日，美国加州大学伯克利分校的研究团队在国际开源论文网站arxiv提交了一篇学术论文。

论文题目为《The False Promise of Imitating Proprietary LLMs》。

我的翻译是《模仿语言大模型，谁为空头支票负责》。

本文中的英文单词imitating翻译为模仿，在这里是用小模型去学习ChatGPT的输出。不能翻译为“仿制”。

他们先提问：

开源LLMs大模型目前能力比不过闭源的，怎么办？

其次，拿出行动思路：

在最新的研究中，研究团队试图通过让开源语言模型模仿闭源语言模型(比如，ChatGPT)，来提高开源大模型的能力。

于是，描述观察：

初步的结果看上去很好，模仿大模型在某些方面的能力与ChatGPT相当。然而，经过深入地分析发现，这些“模仿者”只模仿到表面，缺乏核心的能力。

第四，结论如下：

最有效的方式是，直面ChatGPT的挑战，从根本上提升开源模型的能力，而非简单地模仿。

历史反复证明，学术论文又证明，科研没有近路可抄，唯有脚踏实地，埋头苦干。

论文讲完啦。

谭老师我秉持“AI只会淘汰不会使用AI的人”的理念，公布一下本文幕后学术顾问是ChatGPT。

我和它简单对话，它给予了我极大的，有偿的AI学术支持，我内心那叫一个感谢：

首先，Ctrl+C。

把论文《The False Promise of Imitating Proprietary LLMs》的摘要一键粘贴。

其次，让它翻译。

“一种新兴的方法可以廉价地改进较弱的语言模型，那就是在更强大的模型的输出上进行微调。这种方法旨在使用较弱的开源模型廉价地模仿专有模型的能力。在这项工作中，我们对这种方法进行了严谨的分析。

“我们首先微调了一系列模仿ChatGPT的语言模型，这些模型有不同的基础模型大小(15亿--130亿)，数据来源，以及模仿数据量(0.3M--150M tokens)。然后，我们使用群众评估者和权威的NLP基准对模型进行评估。”

“最初，我们对模仿模型的输出质量感到惊讶--它们在遵循指令上似乎更加出色，群众工人将它们的输出评价为可以与ChatGPT竞争。然而，当进行更有针对性的自动评估时，我们发现在模仿数据不大的任务上，模仿模型几乎没有缩小基础语言模型与ChatGPT的差距。

“我们证明，这些性能差异可能会被人类评估者忽视，因为模仿模型擅长模仿ChatGPT的风格，但不是其事实性。总的来说，我们得出的结论是，模型模仿是一种虚假的承诺:存在着开源和闭源语言模型之间的显著能力差距，目前的方法只能通过使用大量的模仿数据或更有能力的基础语言模型来弥补。因此，我们认为，提高开源模型的最高杠杆行动是面对开发更好的基础语言模型的困难挑战，而不是采取模仿专有系统的捷径。”