国产开源ChatGPT模型对比(大雾)

概述

为什么要做国产开源ChatGPT模型对比呢(大雾)，答案显而易见嘛。最近尤其是这阵子ChatGPT爆火, 2月3日在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。
而要达到这个用户量，TikTok用了9个月，Instagram则花了2年半的时间。作为一款聊天机器人，凭借大规模预训练模型GPT3.5(~100B参数)、指令微调尤其是人类反馈强化学习微调(RLHF,OpenAI在强化学习领域有独特的创见)等两件法宝，
ChatGPT拥有充足的知识储备和不可思议的问答逻辑性，尤其是强悍的多轮问答能力，满足了广罗大众对通用人工智能的幻想，那么其快速出圈就顺理成章了。此外，谷歌与OpenAI的恩怨情仇，那更是大家喜闻乐见的吃瓜情节啦。
让我们恭喜OpenAI这个bi，终于一洗往日的阴霾(或许是早前BERT始终压GPT一头)。果然，竞争、对抗才能迸发创造力呀。

简介

回到正题，让我们今天收集汇总一下当前的国产开源ChatGPT模型(2023.02.08)。

一、基本信息

模型	基础架构	训练数据量	参数量	开源程度	PyTorch	作者	源地址	应用领域
ChatGPT	GPT3.5	45TB	~100B(GPT3是175B)	-	-	OpenAI	-	通用
ChatRWKV	RWKV-4	0.78TB	0.1B/1.5B/3B/7B/14B(开源)/20B(训练中)	训练/推理代码和模型都开源	huggingface	PENG Bo	github	中英文对话(语料不多)
ChatYuan	T5	0.5TB(存疑?)	0.7B(开源)/~10B(api)	PromptCLUE指令微调代码开源	huggingface	ClueAI	github	功能型对话/生成(语料不多)
SkyText	GPT2	0.5TB(存疑?)	3B/14B(开源)	推理代码和模型开源	huggingface	SkyWorkAIGC	github	功能型对话/生成(语料不多)

二、训练过程

2.1 ChatGPT

步骤

a. 训练GPT3.5系列模型, 在45TB数据上进行文本预训练(学习语言建模, GPT3), 在代码数据集上进行预训练(包括代码理解与生成, Codex), GPT3.5的参数量为175B;
b. 有监督的指令微调(类似Instruct-GPT, Supervised Fine-tuning, SFT), 在高质量开源任务数据集上微调, 遵循人类指令, 为了泛化到没有见过的任务;
c. 强化学习版有监督的指令微调(12.9k数据？ Reinforcement Learning From Human Feedback, RLHF), 基于人类偏好, 从人类的反馈中标注排序;
d. 思维链提示微调(Chain-of-thought, CoT), 使用逐步推理的指令数据集(对话数据集), Think step by step;

2.2 ChatRWKV

步骤

a. 训练RWKV-4模型, 类似GPT(linear transformer的RNN), 早期用于小说生成, 使用的Pile数据集有800GB语料;
b. 中英文语料指令微调(已知的有95G开源多语言数据xP3, 使用到的是en数据37.43G和zh数据4.38G), 指令微调模板为bigscience/promptsource, 注意这里只用了QA模板;
c. 训练时间(存疑?), 显卡100-1000张A100(存疑?): RWKV-4-1.5b-8040训练了45天; RWKV-4-3b-8023训练了28天; RWKV-4-7b-8047训练了65天; RWKV-4-14b-7324训练了109天;

2.3 ChatYuan

步骤

a. 在T5模型上继续训练, 数百G中文语料(400G存疑?)中文语料上进行语言模型的预训练;
b. 指令微调PromptCLUE, 在已有的开源16个任务类型150+数据集(几百个数据集累积亿级别任务数据, 200M存疑?)训练, 也和a交替训练, 防止灾难遗忘;
c. 多轮对话语料(数亿条功能对话多轮对话数据(200M?存疑))指令微调;
d. 训练时间/显卡: 500张V100训练一个月;

2.4 SkyText

步骤

a. 训练GPT2模型, 千亿级别的高质量数据(400G存疑?)中文语料上进行语言模型的预训练, 支持聊天、问答、中英互译、分类、文本续写、生成菜谱/对联/哲理/五言诗/采访/对联, 其他未知;
d. 训练时间/显卡: SkyText-14B使用A100-GPU集群，训练200张显卡，训练4周，后续优化2周;

三、简单猜想

3.1 通用人工智能

在这里插入图片描述

实现通用人工智能的三条路：

1.符号主义(就像数学一样存在可以推倒一切的公理、定理)
2.连接主义(类脑模型的模仿, 如大模型就是模仿人脑数以亿计的神经元)
3.行为主义(注重与环境的交互, 如人类的后天学习等, 强化学习)

ChatGPT似乎是第一个把这三种路同时走通的算法模型, 称赞通用人工智能的里程碑事件也不为过。
代码训练语料的注入就是为了学习符号主义, 构建指令Prompt也与符号主义有关, 为了推理与泛化到没见过的任务;
模型175B参数量就与人脑800B神经元接近, 存储大量知识等待激活, 注意力Attention机制更是模仿人眼聚焦输入;
有人类反馈的强化学习版有监督的指令微调RLHF显然就是行为主义了, 与外界交互获得更多的聊天细节, 激活能力;