[论文笔记] chatgpt系列 1.2 PPO(chatlama & colossalAI 代码解读)

企业开发 2023-06-05 16:52:20 阅读次数: 0

ChatGPT 训练一共分为三个步骤：Pretrain/FT、Reward Model、PPO

GitHub - hpcaitech/ColossalAI: Making large AI models cheaper, faster and more accessible

nebullvm/apps/accelerate/chatllama at main · nebuly-ai/nebullvm · GitHub

一、 Actor模型训练（微调GPT）

这个步骤是对Actor模型即GPT进行有监督预训练/微调。

模型采用 GPT2LHHeadModel ，损失函数采用softmax交叉熵。

class SFTDataset(Dataset):
    def __init__(self, dataset, tokenizer: Callable, max_length: int=512) -> None:
        super().__init__()
        self.prompts = []

        for data in tqdm(dataset, disable=not is_rank_0()):
            prompt

猜你喜欢

转载自blog.csdn.net/Trance95/article/details/130369218

[论文笔记] chatgpt系列 1.2 PPO(chatlama & colossalAI 代码解读)

[论文笔记] chatgpt系列汇总

[论文阅读笔记18] DiffusionDet论文笔记与代码解读

[论文笔记] 领域自适应系列论文笔记

ColossalAI GPT2分布式训练调试配置—GPT系列训练与部署

【论文笔记】数据增强系列.1

[论文笔记] chatgpt系列 2.3 DeepSpeed-chat Reward模型训练

[论文笔记] chatgpt系列 2.2 DeepSpeed-chat 训练流程脚本

[论文笔记] chatgpt系列 2.6 DeepSpeed-chat 数据集

[论文笔记] chatgpt系列 2.3 DeepSpeed-chat SFT训练

ResNet论文笔记及Pytorch代码解析

【论文笔记】PVT系列论文阅读笔记

ChatGPT transformer 5篇经典论文以及代码和解读

论文笔记1.2——Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

论文笔记：AugGPT: Leveraging ChatGPT for Text Data Augmentation

Quixote 1.2源码解读

【论文笔记】Swin-Transformer系列阅读笔记

论文笔记系列-Neural Architecture Search With Reinforcement Learning

Person Re-identification 系列论文笔记（六）：AlignedReID

论文笔记系列-DARTS: Differentiable Architecture Search

论文笔记系列--iCaRL： Incremental Classifier and Representation Learning

【论文笔记系列】AutoML：A Survey of State-of-the-art （下）

【论文笔记系列】AutoML：A Survey of State-of-the-art （上）

【实例分割系列：一】Mask RCNN 论文笔记解析

Semantic Soft Segmentation论文笔记与代码复现

行人检测论文笔记汇总（含代码地址）

万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读

【监控笔记】【1.2】监控事件系列——SQL Trace

数字孪生论文阅读笔记【1.2】

论文笔记——Deep Residual Learning for Image Recognition（论文及相关代码）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)