[论文笔记] chatgpt系列 2.6 DeepSpeed-chat 数据集

一、FT数据集 & Reward model数据集

Deepspeed-chat 源代码的数据集:

  1. Dahoas/rm-static: 这是一个用于强化学习的静态环境数据集,包含了一个机器人在一个固定环境中的运动轨迹。该数据集旨在用于评估强化学习算法在静态环境下的表现。

  2. Dahoas/full-hh-rlhf: 这是一个用于深度强化学习的数据集,包含了一个机器人在一个动态环境中的运动轨迹。该数据集旨在用于评估深度强化学习算法在动态环境下的表现。

  3. 多轮对话数据集 Dahoas/synthetic-instruct-gptj-pairwise: 这是一个用于自然语言处理的数据集,包含了两个人之间的对话。该数据集旨在用于评估自然语言处理模型在对话生成任务中的表现。     

  4. yitingxie/rlhf-reward-datasets: 这是一个用于强化学习的数据集,包含了多个机器人在不同环境中的运动轨迹和奖励信号。该数据集旨在用于评估强化学习算法在多智能体系统中的表现。

 二、换成自定义数据集

wikitext2、ptb、c4

猜你喜欢

转载自blog.csdn.net/Trance95/article/details/132043708
今日推荐