LLMs之RL之TAO：《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

导读：这篇Databricks博客文章介绍了TAO (Test-time Adaptive Optimization)，一种无需标记数据即可提升大型语言模型 (LLM) 性能的方法。TAO 是一种突破性的 LLM 调优方法，它通过巧妙地结合测试时间计算和强化学习，解决了企业级 LLM 应用中缺乏标记数据的难题。TAO 仅需利用现有未标记的 LLM 使用数据，即可显著提升模型性能，并降低成本，其性能甚至超越了传统的微调方法。 TAO 的可扩展性和多任务学习能力使其成为一种极具潜力的技术，有望在未来的 AI 应用中发挥重要作用。 Databricks 将 TAO 集成到其产品中，进一步推动了其在企业领域的应用。

>> 背景痛点：

● 数据标注成本高昂：传统的 LLM 微调方法需要大量高质量的人工标注数据，这对于大多数企业任务来说成本高昂且难以获取。

● 提示工程效果有限：仅依靠提示工程来调整 LLM 的性能，效果有限且容易出错。

● 难以适应企业级任务：现有的方法难以有效地将大型语言模型适配到具体的企业级任务中。

>> 具体的解决方案：TAO 是一种新的模型调优方法，它利用测试时间计算和强化学习来改进 LLM，无需任何人工标注的输出数据。

>> 核心思路步骤：TAO 的工作流程包含四个主要阶段：

● 响应生成 (Response Generation)：收集任务的示例输入（提示或查询），并使用多种策略生成多个候选响应。

● 响应评分 (Response Scoring)：使用各种方法（例如奖励建模、基于偏好的评分或自定义规则）对生成的响应进行评估，量化其质量和与标准的一致性。

● 强化学习 (RL) 训练 (Reinforcement Learning (RL) Training)：使用强化学习算法更新 LLM，使其生成更接近高分响应的输出。

● 持续改进 (Continuous Improvement)：TAO 只需要 LLM 的输入数据，这些数据会随着 LLM 的使用而自然产生，从而实现持续的模型改进。

>> 优势：

● 无需标记数据：TAO 只需要未标记的 LLM 使用数据，大大降低了数据获取成本。

● 成本效益高：TAO 将测试时间计算用于模型训练，而不是推理，因此最终模型的推理成本与原始模型相同，显著低于其他测试时间计算模型。

● 性能优越：TAO 的性能在多个基准测试中都超过了传统的微调方法，甚至使廉价的开源模型达到了与昂贵专有模型相媲美的水平。

● 可扩展性：通过增加调优过程中的计算预算，可以进一步提高模型质量，而推理成本保持不变。

● 易于定制：TAO 可以根据特定任务进行定制，以获得最佳性能。

>> 结论和观点：

● TAO 是一种高效且灵活的 LLM 调优方法，它解决了企业级 LLM 应用中数据标注成本高昂的问题。

● TAO 证明了测试时间计算在专门的 AI 开发中的强大能力。

● TAO 为开发者提供了一种强大且简单的工具，可以与提示工程和微调结合使用，以实现更好的 LLM 性能。

● TAO 在特定企业任务和多任务场景下都取得了显著的性能提升。

● Databricks 正在将其生产环境中的 TAO 集成到其即将推出的 AI 产品中。

《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

一、引言：TAO 的核心目标和优势

图 1：TAO 在 Llama 3.1 8B 和 Llama 3.3 70B 上针对三个企业基准测试的结果。TAO 在质量方面带来了显著提升，优于微调方法，并且能够挑战昂贵的专有大型语言模型。

二、TAO 的工作机制：测试时间计算和强化学习

图 2：TAO 管道。

三、TAO 的性能评估：在特定企业任务上的表现

表1:LLM调优方法的比较。

四、TAO 的多任务智能提升

表2：本文中使用的基准测试概述。

表3：在三个企业基准测试中，Llama 3.1 8B和Llama 3.3 70B上的TAO。

图3:TAO随调优过程中使用的测试时间计算量而变化。使用所得LLM的推理成本与原始LLM相同。

五、TAO 的实际应用和最佳实践

表4：利用TAO提高多任务企业智能

六、结论

《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

地址	论文地址：TAO: Using test-time compute to train efficient LLMs without labeled data \| Databricks Blog
时间	2025年3月25日
作者	Mosaic Research Team

一、引言：TAO 的核心目标和优势

TAO 提出了一种创新的模型调优方法，它解决了企业级 LLM 应用中缺乏标记数据的难题，并通过高效利用计算资源来提升模型性能，降低成本。

核心目标: 解决大型语言模型难以适应新的企业任务的问题。传统的微调方法需要大量人工标注数据，而大多数企业任务都缺乏此类数据。TAO旨在利用现有未标记的使用数据来提高模型质量和降低成本。
核心优势: TAO 使用测试时间计算和强化学习，仅需LLM使用数据（未标记数据），即可超越在数千个标记示例上进行的传统微调，并使廉价的开源模型性能逼近昂贵的专有模型。模型质量可以通过增加调优计算预算来提高，而最终模型的推理成本不变。

图 1：TAO 在 Llama 3.1 8B 和 Llama 3.3 70B 上针对三个企业基准测试的结果。TAO 在质量方面带来了显著提升，优于微调方法，并且能够挑战昂贵的专有大型语言模型。

二、TAO 的工作机制：测试时间计算和强化学习

TAO 通过四个阶段的流程，巧妙地结合测试时间计算和强化学习，实现了在无需标记数据的情况下有效地调优 LLM 模型，并保持较低的推理成本。

核心思想: 利用测试时间计算让模型探索任务的各种可能响应，然后使用强化学习根据对这些响应的评估来更新LLM。这种流程可以通过测试时间计算来扩展，而不是依赖昂贵的人工努力。
四个阶段:
- 响应生成 (Response Generation): 收集任务的示例输入提示或查询，并生成多个候选响应。
- 响应评分 (Response Scoring): 系统地评估生成的响应，使用奖励建模、基于偏好的评分或使用LLM评判或自定义规则进行任务特定验证。
- 强化学习 (RL) 训练 (Reinforcement Learning (RL) Training): 使用基于 RL 的方法更新 LLM，引导模型生成与高分响应紧密相关的输出。
- 持续改进 (Continuous Improvement): TAO 只需要示例 LLM 输入作为数据，这些数据可以通过用户与 LLM 的交互自然产生。模型会随着使用量的增加而不断改进。
关键优势: TAO 在训练阶段使用测试时间计算，最终模型的推理成本与原始模型相同，远低于 o1、o3 和 R1 等测试时间计算模型。

图 2：TAO 管道。

三、TAO 的性能评估：在特定企业任务上的表现

实验结果充分证明了 TAO 在特定企业任务上的有效性，它在无需标记数据的情况下，显著提升了开源模型的性能，并达到了与昂贵专有模型相媲美的效果。

实验设置: 在三个具有代表性的基准测试（FinanceBench、DB Enterprise Arena 和 BIRD-SQL）上评估了 TAO 的性能，并与直接使用开源 Llama 模型、在 Llama 上进行微调以及使用高质量专有 LLM (GPT 4o-mini、GPT 4o 和 o3-mini) 的方法进行了比较。
结果: TAO 在所有三个基准测试和两个 Llama 模型上都显著提高了基线 Llama 的性能，甚至超过了微调的结果。TAO 将廉价的开源模型的质量提升到与昂贵的专有模型相当的水平。
可扩展性: TAO 的结果表明，增加调优过程中的计算预算可以提高模型质量，而推理成本保持不变。

表1:LLM调优方法的比较。

四、TAO 的多任务智能提升

TAO 不仅能提升单一任务的性能，也能有效地提高 LLM 在多个企业任务上的整体性能，展现了其在多任务学习方面的潜力。

实验设置: 在 175,000 个涵盖多种企业任务的提示上运行 TAO，然后在一套企业相关的任务上测试性能。
结果: TAO 有效地提高了 Llama 3.1 70B 和 Llama 3.3 70B 的性能，在多个子分数上取得了改进，将 Llama 3.3 70B 的性能显著提升，使其更接近 GPT-4o。所有这些都无需人工标注成本。

表2：本文中使用的基准测试概述。

表3：在三个企业基准测试中，Llama 3.1 8B和Llama 3.3 70B上的TAO。

图3:TAO随调优过程中使用的测试时间计算量而变化。使用所得LLM的推理成本与原始LLM相同。

五、TAO 的实际应用和最佳实践

文章提供了 TAO 的实际应用指南和最佳实践，强调了数据收集和评分方法的重要性，并建议建立数据飞轮以持续改进模型。

必要条件: 足够的示例输入数据（数千个）、足够准确的评分方法（例如 Databricks 的自定义奖励模型 DBRM）。
最佳实践: 创建 AI 应用的数据飞轮，收集输入、模型输出和其他事件，以便持续改进模型。

表4：利用TAO提高多任务企业智能

六、结论

TAO 作为一种高效、灵活的模型调优技术，为 AI 开发人员提供了一种强大的新工具，可以与提示工程和微调相结合使用。

核心贡献: TAO 提供了一种无需标记数据即可实现高质量模型调优的强大方法，解决了企业客户面临的缺乏标记数据的关键挑战。
未来展望: TAO 将被整合到 Databricks 的许多即将推出的 AI 产品更新和发布中。

《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

一、引言：TAO 的核心目标和优势

图 1：TAO 在 Llama 3.1 8B 和 Llama 3.3 70B 上针对三个企业基准测试的结果。TAO 在质量方面带来了显著提升，优于微调方法，并且能够挑战昂贵的专有大型语言模型。

二、TAO 的工作机制：测试时间计算和强化学习

图 2：TAO 管道。

三、TAO 的性能评估：在特定企业任务上的表现

表1:LLM调优方法的比较。

四、TAO 的多任务智能提升

表2：本文中使用的基准测试概述。

表3：在三个企业基准测试中，Llama 3.1 8B和Llama 3.3 70B上的TAO。

图3:TAO随调优过程中使用的测试时间计算量而变化。使用所得LLM的推理成本与原始LLM相同。

五、TAO 的实际应用和最佳实践

表4：利用TAO提高多任务企业智能

六、结论

猜你喜欢

目录

热门文章