[AI]算法小抄-目前最完善的RLHF框架：AlpacaFarm - 代码天地

[AI]算法小抄-目前最完善的RLHF框架：AlpacaFarm

企业开发 2023-07-16 08:39:47 阅读次数: 0

系列文章主要目的快速厘清不同方法的原理差异和应用场景，

对于理论的细节请参考文末的Reference，

Reference中也会筛选较为正确，细节的说明

在大模型微调的众多方法中，RLHF一直都被认为是ChatGPT成功的关键，但成本与训练门槛最高。GPT系列的RLHF方案一直未开源，因此研究到这一步的团队只能基于Fine-Tuning Language Models from Human Preferences进行魔改，而且过程复杂又昂贵。

AlpacaFarm的提出无疑是解决开源社区这一大痛点，这个框架主要的目标是有效的整合目前常见的基于人类反馈(Human feedback)的Instruction-fowllowing 模型训练技术，以及提供完善统一的pipeline，大幅降低训练门槛。以下是整体框架，号称完整的RLHF训练只需要24小时，成本约200美元

简单说明一下整个训练流程，开源的内容同样延续Aplaca的训练流程，使用Alpaca5.2K数据集，但提取其中10K进行SFT(Supervised Finetune)，剩下的42K数据用来作人工偏好标注以及测试，整个数据集已经可以在HuggingFace上获取。

其主要降低的关键，主要就是使用模拟人工标注的方式，有点类似self-instruct的方法，这个流程相比人工标注降低45倍。比较模拟标注的方式与实际人工标注数据的训练结果，整体结果表现非常一致：

结论

AlpacaFarm主要的贡献包含：

模拟人工标注方式：降低成本与效率
模型自动化评估系统：融合Alpaca交互数据和公开数据集对RLHF结果进行评估
实现主流RLHF方法，包含：PPO，Expert Iteration, Best-of-n sampling...等

完整代码已经公开：GitHub - tatsu-lab/alpaca_farm: A Simulation Framework for RLHF and alternatives.

Reference

https://crfm.stanford.edu/2023/05/22/alpaca-farm.html

https://github.com/tatsu-lab/stanford_alpaca

刚刚！斯坦福发布 AlpacaFarm (羊驼农场)，可将RLHF人工成本降低45倍！(开源) - 知乎

猜你喜欢

转载自blog.csdn.net/weixin_44491772/article/details/130878830

[AI]算法小抄-目前最完善的RLHF框架：AlpacaFarm

[AI]算法小抄-State of GPT (Andrej Karpthy MSBuild2023 )

[AI]算法小抄-总结大模型微调方式

jquery—— jQuery 是目前最流行的 JS 框架

目前为止最完善专业的微信小程序商城

教你体验目前最火AI - 在craft AI assistant使用AI助手

你知道目前最流行的SpringMVC框架如何搭建吗？

目前最流行的Mybatis框架应该如何搭建呢？

蒸馏学习框架小抄(1)

教你体验目前最火AI - 在craft AI assistant 使用chatGPT

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

目前AI主要瓶颈

目前最流行的运行时权限请求框架PermissionsDispatcher、RxPermissions和easypermissions的使用和对比

目前最流行的15个机器学习框架，你知道几个？

这八个爬虫框架是目前最牛逼的！你用过哪几个呢？

目前Java编程语言最流行的7个框架，你了解多少？

MIUI目前为止最简单安装谷歌服务框架教程

你知道目前最流行的Mybatis框架吗？如何搭建呢？

你知道目前最流行的SpringMVC框架吗？如何搭建呢？

你知道目前最流行的SpringMVC框架吗？应该如何搭建呢？

RLHF不再需要人类，AI 实现标注自循环

目前最实用的机器学习算法，你认为是哪几种？

Louvain 算法的核心思路以及数据结构（最完善版）

目前人工智能最火的是-深度学习、机器学习、，采用深入浅出的方法，结合实例并配以大量代码练习，重点讲解深度学习框架模型、科学算法、训练过程技巧。

目前最绚丽的日历控件

目前用到的框架

Java目前主流框架

算法、硬件、框架，2019年AI何去何从？

了解目前火热的AI行业

【算法和数据结构】算法复杂度小抄

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)