LLMs之RL之TAO:《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

LLMs之RL之TAO:《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

导读:这篇Databricks博客文章介绍了TAO (Test-time Adaptive Optimization),一种无需标记数据即可提升大型语言模型 (LLM) 性能的方法。TAO 是一种突破性的 LLM 调优方法,它通过巧妙地结合测试时间计算强化学习,解决了企业级 LLM 应用中缺乏标记数据的难题。TAO 仅需利用现有未标记的 LLM 使用数据,即可显著提升模型性能,并降低成本,其性能甚至超越了传统的微调方法。 TAO 的可扩展性和多任务学习能力使其成为一种极具潜力的技术,有望在未来的 AI 应用中发挥重要作用。 Databricks 将 TAO 集成到其产品中,进一步推动了其在企业领域的应用。

>> 背景痛点

● 数据标注成本高昂:传统的 LLM 微调方法需要大量高质量的人工标注数据,这对于大多数企业任务来说成本高昂且难以获取。

提示工程效果有限:仅依靠提示工程来调整 LLM 的性能,效果有限且容易出错。

难以适应企业级任务:现有的方法难以有效地将大型语言模型适配到具体的企业级任务中。

>> 具体的解决方案:TAO 是一种新的模型调优方法,它利用测试时间计算和强化学习来改进 LLM,无需任何人工标注的输出数据。

>> 核心思路步骤TAO 的工作流程包含四个主要阶段:

响应生成 (Response Generation):收集任务的示例输入(提示或查询),并使用多种策略生成多个候选响应

响应评分 (Response Scoring):使用各种方法(例如奖励建模、基于偏好的评分或自定义规则)对生成的响应进行评估,量化其质量和与标准的一致性。

强化学习 (RL) 训练 (Reinforcement Learning (RL) Training):使用强化学习算法更新 LLM,使其生成更接近高分响应的输出。

持续改进 (Continuous Improvement):TAO 只需要 LLM 的输入数据,这些数据会随着 LLM 的使用而自然产生,从而实现持续的模型改进。

>> 优势

● 无需标记数据:TAO 只需要未标记的 LLM 使用数据,大大降低了数据获取成本。

● 成本效益高:TAO 将测试时间计算用于模型训练,而不是推理,因此最终模型的推理成本与原始模型相同,显著低于其他测试时间计算模型。

● 性能优越:TAO 的性能在多个基准测试中都超过了传统的微调方法,甚至使廉价的开源模型达到了与昂贵专有模型相媲美的水平。

● 可扩展性:通过增加调优过程中的计算预算,可以进一步提高模型质量,而推理成本保持不变。

● 易于定制:TAO 可以根据特定任务进行定制,以获得最佳性能。

>> 结论和观点

● TAO 是一种高效且灵活的 LLM 调优方法,它解决了企业级 LLM 应用中数据标注成本高昂的问题。

● TAO 证明了测试时间计算在专门的 AI 开发中的强大能力。

● TAO 为开发者提供了一种强大且简单的工具,可以与提示工程和微调结合使用,以实现更好的 LLM 性能。

● TAO 在特定企业任务和多任务场景下都取得了显著的性能提升。

● Databricks 正在将其生产环境中的 TAO 集成到其即将推出的 AI 产品中。

目录

《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

一、引言:TAO 的核心目标和优势

图 1:TAO 在 Llama 3.1 8B 和 Llama 3.3 70B 上针对三个企业基准测试的结果。TAO 在质量方面带来了显著提升,优于微调方法,并且能够挑战昂贵的专有大型语言模型。

二、TAO 的工作机制:测试时间计算和强化学习

图 2:TAO 管道。

三、TAO 的性能评估:在特定企业任务上的表现

表1:LLM调优方法的比较。

四、TAO 的多任务智能提升

表2:本文中使用的基准测试概述。

表3:在三个企业基准测试中,Llama 3.1 8B和Llama 3.3 70B上的TAO。

图3:TAO随调优过程中使用的测试时间计算量而变化。使用所得LLM的推理成本与原始LLM相同。

五、TAO 的实际应用和最佳实践

表4:利用TAO提高多任务企业智能

六、结论


《TAO: Using test-time compute to train efficient LLMs without labeled data》翻译与解读

地址

论文地址:TAO: Using test-time compute to train efficient LLMs without labeled data | Databricks Blog

时间

2025年3月25日

作者

Mosaic Research Team

一、引言:TAO 的核心目标和优势

TAO 提出了一种创新的模型调优方法,它解决了企业级 LLM 应用中缺乏标记数据的难题,并通过高效利用计算资源来提升模型性能,降低成本。

  • 核心目标: 解决大型语言模型难以适应新的企业任务的问题。传统的微调方法需要大量人工标注数据,而大多数企业任务都缺乏此类数据。TAO旨在利用现有未标记的使用数据来提高模型质量和降低成本。

  • 核心优势: TAO 使用测试时间计算和强化学习,仅需LLM使用数据(未标记数据),即可超越在数千个标记示例上进行的传统微调,并使廉价的开源模型性能逼近昂贵的专有模型。模型质量可以通过增加调优计算预算来提高,而最终模型的推理成本不变。

图 1:TAO 在 Llama 3.1 8B 和 Llama 3.3 70B 上针对三个企业基准测试的结果。TAO 在质量方面带来了显著提升,优于微调方法,并且能够挑战昂贵的专有大型语言模型。

二、TAO 的工作机制:测试时间计算和强化学习

TAO 通过四个阶段的流程,巧妙地结合测试时间计算和强化学习,实现了在无需标记数据的情况下有效地调优 LLM 模型,并保持较低的推理成本。

  • 核心思想: 利用测试时间计算让模型探索任务的各种可能响应,然后使用强化学习根据对这些响应的评估来更新LLM。这种流程可以通过测试时间计算来扩展,而不是依赖昂贵的人工努力。

  • 四个阶段:

    • 响应生成 (Response Generation): 收集任务的示例输入提示或查询,并生成多个候选响应。
    • 响应评分 (Response Scoring): 系统地评估生成的响应,使用奖励建模、基于偏好的评分或使用LLM评判或自定义规则进行任务特定验证。
    • 强化学习 (RL) 训练 (Reinforcement Learning (RL) Training): 使用基于 RL 的方法更新 LLM,引导模型生成与高分响应紧密相关的输出。
    • 持续改进 (Continuous Improvement): TAO 只需要示例 LLM 输入作为数据,这些数据可以通过用户与 LLM 的交互自然产生。模型会随着使用量的增加而不断改进。
  • 关键优势: TAO 在训练阶段使用测试时间计算,最终模型的推理成本与原始模型相同,远低于 o1、o3 和 R1 等测试时间计算模型。

图 2:TAO 管道。

三、TAO 的性能评估:在特定企业任务上的表现

实验结果充分证明了 TAO 在特定企业任务上的有效性,它在无需标记数据的情况下,显著提升了开源模型的性能,并达到了与昂贵专有模型相媲美的效果。

  • 实验设置: 在三个具有代表性的基准测试(FinanceBench、DB Enterprise Arena 和 BIRD-SQL)上评估了 TAO 的性能,并与直接使用开源 Llama 模型、在 Llama 上进行微调以及使用高质量专有 LLM (GPT 4o-mini、GPT 4o 和 o3-mini) 的方法进行了比较。

  • 结果: TAO 在所有三个基准测试和两个 Llama 模型上都显著提高了基线 Llama 的性能,甚至超过了微调的结果。TAO 将廉价的开源模型的质量提升到与昂贵的专有模型相当的水平。

  • 可扩展性: TAO 的结果表明,增加调优过程中的计算预算可以提高模型质量,而推理成本保持不变。

表1:LLM调优方法的比较。

四、TAO 的多任务智能提升

TAO 不仅能提升单一任务的性能,也能有效地提高 LLM 在多个企业任务上的整体性能,展现了其在多任务学习方面的潜力。

  • 实验设置: 在 175,000 个涵盖多种企业任务的提示上运行 TAO,然后在一套企业相关的任务上测试性能。

  • 结果: TAO 有效地提高了 Llama 3.1 70B 和 Llama 3.3 70B 的性能,在多个子分数上取得了改进,将 Llama 3.3 70B 的性能显著提升,使其更接近 GPT-4o。所有这些都无需人工标注成本。

表2:本文中使用的基准测试概述。

表3:在三个企业基准测试中,Llama 3.1 8B和Llama 3.3 70B上的TAO。

图3:TAO随调优过程中使用的测试时间计算量而变化。使用所得LLM的推理成本与原始LLM相同。

五、TAO 的实际应用和最佳实践

文章提供了 TAO 的实际应用指南和最佳实践,强调了数据收集和评分方法的重要性,并建议建立数据飞轮以持续改进模型。

  • 必要条件: 足够的示例输入数据(数千个)、足够准确的评分方法(例如 Databricks 的自定义奖励模型 DBRM)。

  • 最佳实践: 创建 AI 应用的数据飞轮,收集输入、模型输出和其他事件,以便持续改进模型。

表4:利用TAO提高多任务企业智能

六、结论

TAO 作为一种高效、灵活的模型调优技术,为 AI 开发人员提供了一种强大的新工具,可以与提示工程和微调相结合使用。

  • 核心贡献: TAO 提供了一种无需标记数据即可实现高质量模型调优的强大方法,解决了企业客户面临的缺乏标记数据的关键挑战。

  • 未来展望: TAO 将被整合到 Databricks 的许多即将推出的 AI 产品更新和发布中。