国产开源ChatGPT模型对比

国产开源ChatGPT模型对比(大雾)

概述

为什么要做国产开源ChatGPT模型对比呢(大雾),答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。
而要达到这个用户量,TikTok用了9个月,Instagram则花了2年半的时间。作为一款聊天机器人,凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化学习领域有独特的创见)等两件法宝,
ChatGPT拥有充足的知识储备和不可思议的问答逻辑性,尤其是强悍的多轮问答能力,满足了广罗大众对通用人工智能的幻想,那么其快速出圈就顺理成章了。此外,谷歌与OpenAI的恩怨情仇,那更是大家喜闻乐见的吃瓜情节啦。
让我们恭喜OpenAI这个bi,终于一洗往日的阴霾(或许是早前BERT始终压GPT一头)。果然,竞争、对抗才能迸发创造力呀。

简介

回到正题,让我们今天收集汇总一下当前的国产开源ChatGPT模型(2023.02.08)。

一、基本信息

模型 基础架构 训练数据量 参数量 开源程度 PyTorch 作者 源地址 应用领域
ChatGPT GPT3.5 45TB ~100B(GPT3是175B) - - OpenAI - 通用
ChatRWKV RWKV-4 0.78TB 0.1B/1.5B/3B/7B/14B(开源)/20B(训练中) 训练/推理代码和模型都开源 huggingface PENG Bo github 中英文对话(语料不多)
ChatYuan T5 0.5TB(存疑?) 0.7B(开源)/~10B(api) PromptCLUE指令微调代码开源 huggingface ClueAI github 功能型对话/生成(语料不多)
SkyText GPT2 0.5TB(存疑?) 3B/14B(开源) 推理代码和模型开源 huggingface SkyWorkAIGC github 功能型对话/生成(语料不多)

二、训练过程

2.1 ChatGPT

步骤

  • a. 训练GPT3.5系列模型, 在45TB数据上进行文本预训练(学习语言建模, GPT3), 在代码数据集上进行预训练(包括代码理解与生成, Codex), GPT3.5的参数量为175B;
  • b. 有监督的指令微调(类似Instruct-GPT, Supervised Fine-tuning, SFT), 在高质量开源任务数据集上微调, 遵循人类指令, 为了泛化到没有见过的任务;
  • c. 强化学习版有监督的指令微调(12.9k数据? Reinforcement Learning From Human Feedback, RLHF), 基于人类偏好, 从人类的反馈中标注排序;
  • d. 思维链提示微调(Chain-of-thought, CoT), 使用逐步推理的指令数据集(对话数据集), Think step by step;

2.2 ChatRWKV

步骤

  • a. 训练RWKV-4模型, 类似GPT(linear transformer的RNN), 早期用于小说生成, 使用的Pile数据集有800GB语料;
  • b. 中英文语料指令微调(已知的有95G开源多语言数据xP3, 使用到的是en数据37.43G和zh数据4.38G), 指令微调模板为bigscience/promptsource, 注意这里只用了QA模板;
  • c. 训练时间(存疑?), 显卡100-1000张A100(存疑?): RWKV-4-1.5b-8040训练了45天; RWKV-4-3b-8023训练了28天; RWKV-4-7b-8047训练了65天; RWKV-4-14b-7324训练了109天;

2.3 ChatYuan

步骤

  • a. 在T5模型上继续训练, 数百G中文语料(400G存疑?)中文语料上进行语言模型的预训练;
  • b. 指令微调PromptCLUE, 在已有的开源16个任务类型150+数据集(几百个数据集累积亿级别任务数据, 200M存疑?)训练, 也和a交替训练, 防止灾难遗忘;
  • c. 多轮对话语料(数亿条功能对话多轮对话数据(200M?存疑))指令微调;
  • d. 训练时间/显卡: 500张V100训练一个月;

2.4 SkyText

步骤

  • a. 训练GPT2模型, 千亿级别的高质量数据(400G存疑?)中文语料上进行语言模型的预训练, 支持聊天、问答、中英互译、分类、文本续写、生成菜谱/对联/哲理/五言诗/采访/对联, 其他未知;
  • d. 训练时间/显卡: SkyText-14B使用A100-GPU集群,训练200张显卡,训练4周,后续优化2周;

三、简单猜想

3.1 通用人工智能

在这里插入图片描述

实现通用人工智能的三条路:

  • 1.符号主义(就像数学一样存在可以推倒一切的公理、定理)
  • 2.连接主义(类脑模型的模仿, 如大模型就是模仿人脑数以亿计的神经元)
  • 3.行为主义(注重与环境的交互, 如人类的后天学习等, 强化学习)

ChatGPT似乎是第一个把这三种路同时走通的算法模型, 称赞通用人工智能的里程碑事件也不为过。
代码训练语料的注入就是为了学习符号主义, 构建指令Prompt也与符号主义有关, 为了推理与泛化到没见过的任务;
模型175B参数量就与人脑800B神经元接近, 存储大量知识等待激活, 注意力Attention机制更是模仿人眼聚焦输入;
有人类反馈的强化学习版有监督的指令微调RLHF显然就是行为主义了, 与外界交互获得更多的聊天细节, 激活能力;

四、ChatGPT涉及的技术

4.1 ChatGPT进化树

图来自符尧等的ChatGPT的前世今生
在这里插入图片描述

4.2 GPT-3.5进化历程

图来自符尧等的ChatGPT的前世今生
在这里插入图片描述

参考

猜你喜欢

转载自blog.csdn.net/rensihui/article/details/128962487