开源语言大模型的正确姿势

作者 | Nathan Lambert

OneFlow编译

翻译｜杨婷、宛子琳

如今，很多公司都被迫加快步伐，参与到开源语言大模型（LLM）的竞争之中。发布某种形式的开源语言大模型已成为机器学习公司实力的象征。最近，Mistral AI 完成资金筹集，发布了一款拥有 70 亿参数的强大语言模型。

尽管更多人参与到开源机器学习生态系统中是有益的，也被很多人视为一个重要的发展趋势，但现在我们需要转变视角，推动开源机器学习公司从发布开源模型转向寻求长期的商业战略和竞争优势。这些公司需要做到两点：第一，具备相比资金雄厚的公司的竞争力；第二，建立和维护有利于产品粘性的护城河。目前为止，开源 ML 公司还并未在这两个方面取得良好的成果。

本文着眼于第一点：如果维持现状，那么开源语言大模型公司能否缩小与谷歌或 OpenAI 等巨头之间的差距？

这个问题针对的是 Mistral 和 Stability 等公司（他们把全部资金都用于计算，而没有开发产品）和那些认为开源是语言大模型的最佳发展方向的人。

（本文作者Nathan Lambert是伯克利人工智能博士和 Huggingface 的机器学习科学家。本文由OneFlow编译发布，转载请联系授权。原文：https://www.interconnects.ai/p/are-open-llms-viable#footnote-anchor-1-13759732）

开源 LLM 的短期趋势：种子、泡沫与实验

为呼应 BitTorrent 上原始 LLaMa 模型的泄露，Mistral 通过推特上发布了自己的第一个模型，并附带一个种子链接（如下图）。这种模型发布方式十分有趣，符合时代潮流。

今明两年可能是开源 LLM 的黄金时期。Meta 以 LLaMa 为计算平台快速发展壮大，LLaMa 2 很实用，能够轻松进行各类有趣任务的微调，许多小规模开发者通过完善其生态系统进行支持，LLaMa 3/4 对标的是 GPT4 的能力。

因为 Meta 成功地将 LLaMa 打造成了一个计算平台，所以我们能将 LLaMa 2 托管在谷歌云平台 GCP和 AWS Bedrock 上。其分发流程为：Meta 发布模型 --> 开发者用模型进行实验 --> 开发者向管理层推荐应该在实验性产品中使用该模型 --> 业务决策者找到云服务供应商以托管该模型。Google 和 Amazon 可能同意与 Meta 签订收入共享协议来托管该模型。尽管 Meta 的许可证备受批评，但 LLaMa 2 的成功不可否认。

有多少模型能够像 Meta 的 LLaMa 获得同样的杠杆效应呢？成功与否似乎主要取决于模型的发布时间和地点。目前，LLaMa 2 是唯一一款最优秀的通用开源语言大模型。性能最佳的代码模型以及其他一些独特的模型也可能会被托管，但这个数量仍然远低于当前发布模型的供应商数量。

市场炒作的可持续性的关键在于，弄清楚有多少人因为公司高层鼓励人们使用 LLM 产品并进行实验而参与了 LLaMa 和开源 LLM 。对于技术发展而言，了解开源 LLM 在特定用例中的基础设施和限制至关重要，而产品还没有那么有用这一细节在资金充裕的情况下并不重要。这就是 LLM 市场出现泡沫的原因。

LLaMa 是验证 LLM 产品能否获得一些吸引力的跳板，这是一个极具价值的立足点，也正因如此，人们自然而然地会产生疑问：除了 Meta，是否还会有其他公司进入这一领域？

LLM 的中期发展趋势：共享、数据和竞争

许多有开源倾向的 LLM 提供商已经宣布了自己的意图，随着图景逐渐明朗，每隔几个月我们就会看到新的模型版本发布，判断谁是其中的佼佼者，问题是，采用“开源LLM即平台”策略的那些人，并没有真正贯彻他们在开源方面的开放性。

LLM 真正的开源在于开放数据和训练代码库。因此，我们需要采取行动鼓励人们开放这些资源。下面的这条推文以及我在 Mistral 发布之后进行的一些线下讨论，让我意识到，缺乏数据透明性可能很快成为关乎开源 LLM 生态系统存亡的重要问题。

注意：许多数据发布细节实际上可能受到对 OpenAI 和 Meta 诉讼的制约，其中记录了未经许可使用图书数据集的情况。如果在此问题上模型供应商经证明不存在问题，就无须担心。

开源技术的一个主要论断是，通过更多利益相关者的参与，能够让每个人都受益，实现更快的进步。这适用于安全性、可靠性和功能性。考虑到现代 LLM 的预训练通常可以简化为收集优质数据并高效地应用于模型，我们正在使用的各个开源模型的主要区别在于数据，如 LLaMa 以及 Adept、Mistral 和 Stability 等已发布的模型。

这一论断存在根本的资本约束。很多开源团队的规模可能是 OpenAI、Google 和 Meta 这样的大型团队规模的 1/20。每个团队都在用不同的方法追求相似的目标，拥有更多的人员确实能够完成更多事。开源的优势在于参与各方能够彼此分享最显著的细节，然后通过整合（尤其是通过无偿社区的调试和改进），开源阵营能够汇集 20 倍的人力资源，从而为每个开源组织节省时间，提高效率。虽然开源本身并不能给任一参与方带来巨大优势，但它为整个生态系统提供了机会。

开源组织应当明白，当前发布的模型实际上并不具备直接商业化的价值（1）。在未来几年将 LLM 逐渐融入现代经济的过程中，它们的主要作用是服务于人员招募和公共关系。尽管开源 LLM 正迅速拉近与 OpenAI 之间的差距，但考虑到模型 SOTA 的快速迭代和更新（三个月左右），开源模型优势和竞争力的持续时间非常有限，只能维持到下个模型出现之前。

尽管某些参与者可能认为，不公开自己的数据可以积累优势，但实际上他们正在逐渐失去竞争力。在开源领域内，他们相互竞争，而 OpenAI 可能会通过更快的发展迅速吞噬其市场份额。Mistral 和那些仅以开源为商业模式的参与者需要更加强调开放性，直到开发出自己的产品。否则，他们只会增强我们对 Meta 等公司深厚资源的依赖来弥补开源和闭源语言模型之间的差距。

Mistral 等公司以开源方式训练优质的语言大模型，然而这种方式在业务策略上意义不大，这可能仅仅只意味着，训练并发布了一个不错的LLM，但没有任何产品，也不是可行的商业策略。

如果从未计划推出产品，就意味着没有真正的商业模式，所以至少可以做件好事，把模型细节分享给大家。对于 Meta 等坐拥大量资金的公司而言，开源语言大模型并不会影响其生存底线，但对于规模较小的参与者来说，开源则可能导致其被收购或破产。

这是开源与闭源语言模型之间的漫长故事的序章。之前的错误埋下了悲剧的种子，预示着故事的结局：LLM 供应商的大规模整合。

如果我们认真思考这样一种未来：开源以其最初的原则蓬勃发展，那么我们需要对决定哪些数据能开源/不开源的决策者来施加更大压力。同时，关于引导社区发展，这些公司还应当做些什么呢？

回顾文章开头引用的推文，由于法律责任问题（目前作者和撰稿人正在关注），很少有组织能够加入该列表，不过其中包含的数据很值得探讨。

例如，Mistral 使用了部分 2023 年（2）的数据进行训练，这意味着，他们不仅仅下载了 The Pile 或常用的 Common Crawl 存档。Mistral 还应该公开其网络爬虫或使用过的数据处理脚本等资源。现在，是时候出现一个新的预训练数据发布表单了。此外，Stability 发布了一些关于他们最新的 30亿参数的 StableLM 的数据信息，这值得肯定，尽管业界传闻他们在业务方面遭遇了困境。

这种情况随着 RLHF 的出现而变得更加复杂。我不确定是否有人知道如何传达重新收集 RLHF 数据所需的必要限制条件。与预训练相比，与外部供应商进行的迭代训练和数据收集显著增加了复杂性。开源领域尚未完全复现 OpenAI 和 Google 从 RLHF 中所期望的行为，当 LLaMa 2 中的各种结果是唯一的产出时，这种差距尤为明显。

我预测开源 LLM 的未来有如下两种可能：

开源公司持续加大开源力度。开源社区通过群众智慧共同快速解决众多问题，而公司有充足时间开发产品从而解决商业命题。

开源 LLM 维持现状不变，导致进展逐渐落后。开源供应商就像在玩抢凳子游戏，除非他们能够找到其他收入来源并充分利用庞大的 GPU 机群，否则将逐个在约 18 个月内因资金耗尽而被收购。唯有那些拥有大规模产品用例的开源参与者能够继续生存，开源能够帮助他们深入了解自己的模型。

在 LLM 领域，当众人聚焦于开源与闭源之争时，现在更应进一步关注开放性与和透明度，而不仅仅将其作为公关关系的手段。

事实表明，对于那些先筹集资金训练开源模型，之后才思考其用例的组织，大多数理性的人对其发展前景越来越谨慎。LLM 当前的发展要义都在产品上，底层技术将持续进步，但只有其驱动新的产品才有价值。这正是我们目前所处的经济周期，对此也有前车之鉴。

如果我们不能及早深入思考这一问题，就会白白浪费巨额投资。

图片来自 Midjourney

开源LLM 的长期趋势：专有模型、规模化及挑战

资源共享的前景并不明朗，资本需求的规模定律（scaling law）预测对于开源公司来说也并不乐观。开源公司需要有能力筹集到这些资金，否则一切都是空谈。

改变这一局面的关键因素是：开源公司在其产品所聚焦的细分领域中形成绝对优势。之后可以发布模型，在其专业领域收集社区反馈，并加快迭代间的反馈循环。类似于 Adept 发布多模态模型，展示其从全部 YouTube 教程中学习的能力，这意味着 Mistral 必须找到一个产品解决方案（并非易事）。

正如我在关于 LLM 发展路径的文章中所提到的：

开源领域将会开发出在特定需求集上更具模式能力的 LLM，但其综合能力相对较差。这意味着，相比对标 GPT4 在各项指标上的强大能力，开源模型将选择 10-50% 的指标作为目标胜过 GPT4，在其他指标上将仍会落后。

直接的正面竞争并不是一种可行的短期或长期策略。我认为，大多数公司都已意识到了这一点，并迫切需要找到解决方案，但 Twitter 上的许多用户似乎还没有意识到这一点，他们会仅仅因为发布了一个模型就欢呼雀跃。事实上，其中还包含许多其他影响因素。

同时我预计，在未来的 5-10 年内，训练 SOTA 语言模型的成本将每年增加约 5 倍。到 2028 年，训练一个模型的花费可能会轻易超过百亿甚至千亿美元。我甚至没有在论述中充分考虑这一因素，但这进一步强调了一个事实：较小的公司需要专注于特定领域，以增加自身的竞争优势。

这是每个人都能为自己所感兴趣的任务获得一个更小、更本地化模型的方式。我们需要回归开源的两大原则：个性化与安全性。

开源模型领域还会有更多公司的加入。xAI 预计将开源模型，Mosaic 将发布强大的模型，Contextual 也可能会发布一些实用模型，还有一些在暗中运作的公司未被提及。除数据细节之外，接下来的问题是，随着模型能力的日益增强，行业动态将如何展开。我们已经看到整个行业的大趋势，即最强大的模型供应商变得越来越封闭。为促进开源生态系统的蓬勃发展，我们需要全面推动并积极营造正面势头，但目前还未看到这种情况。

注释：

（1） Meta 的情况有些微妙。对于 Meta 而言，在产品中利用专有模型可能比通过授权获得更多收益。

（2）我没找到包含最近模型回答问题截图的推文。

其他人都在看

试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/

开源语言大模型的正确姿势

猜你喜欢