夕小瑶科技说原创
作者 | 王思若

大家好，我是王思若。在大模型混战的当下，去繁就简，最核心的目标或者使命始终是通用人工智能AGI，但目前而言，也只有OpenAI和Google可能会在这个需要海量算力支撑和资金支持的方向上构建出完整的技术路线。

然而，遗憾的是OpenAI选择了闭源并构筑了坚实的护城河，所有人都试图从其内部员工的发言中了解关于GPT-4的任何模型细节，甚至分析GPT-4不同时间节点的性能表现来推理其模型改进，但无疑都只是隔靴搔痒，一个核心的问题永远摆着社区的面前：如何走向通用人工智能？或者说，如何让模型学习并理解人类物理世界？

在通向AGI的道路上，Google提出了下一代通用模型『Gemini』并预备在今年晚些时候发布，Gemini即通用多模态智能网络（Generalized Multimodal Intelligence Network），这是Google面对GPT-4威胁的背水一战，辞职四年的Google联合创始人谢尔盖·布林（Sergey Brin）重返工作并协助创建Gemini系统，Gemini无疑是下半年大模型赛道的焦点。

Gemini系统目前透漏的消息非常契合笔者对未来AGI模型的构想，无疑Gemini也将会是闭源系统，但好消息是我们将距离AGI越来越近了，开源社区或许有机会可以学习和借鉴Google探索出的大模型范式。

一、Gemini系统

2023年4月20日，Google的CEO 皮柴（Pichai）宣布合并DeepMind和Google Brain，成立Google DeepMind，将Google在AI领域的世界级人才、计算能力、基础设施等资源结合起来，目标很简单，开发对标GPT-4的多模态模型，项目代号“Gemini”（双子星）。
2023年5月10日，Google I/O 2023发布会开始预告Gemini模型，强调Gemini在使用工具和集成 API 方面表现出色，并致力于实现在记忆和规划方面的创新。Gemini仍在训练中但是已经展现出之前所有模型中未曾见过的多模态能力。 经过微调和严格的安全测试后，Gemini 将提供各种尺寸和功能，以确保它可以部署在不同的产品、应用程序和设备上。
2023年6月14日，有爆料称Google使用Youtube视频进行模型训练，Google的研究人员一直在使用YouTube 开发其下一个大型语言模型 Gemini。
2023年6月14日，Google DeepMind的CEO Hassabis表示Gemini系统将比ChatGPT背后的系统更加强大，DeepMind 的 Gemini 仍在开发中，是一种处理文本的大型语言模型，本质上与为ChatGPT 提供支持的 GPT-4类似。但Gemini融入了AlphaGo系统的能力（强化学习+树搜索？）并进行了一些有趣的创新，预计在几个月的时间投入数千万或数亿美元开发完成。
2023年7月11日，Hassabis接受纽约时报的采访时候表示，我们正在开发Gemini系统来迎接下一个时代，这将是一个极其强大的通用系统，基本上通过语言进行交互，具有数学、编码等通用功能，并能够进行推理和规划能力。在这种场景下，那些类似于AlphaGo和AlphaFold的专业人工智能系统将被统称为工具。
2023年7月11日，Hassabis在The Verge采访中表示，Gemini是Google的下一代多模态大模型，结合了世界一流AI研究团队（DeepMind和Google AI）所有的最佳想法，与未来几年发生的事情相比，今天的聊天机器人看起来微不足道！
2023年7月20日，华尔街日报：“Gemini 是 Google 尝试构建的通用人工智能程序，可以与 OpenAI 的 GPT-4 模型相媲美。负责该项目的谷歌高管 Demis Hassabis 在最近的一次全公司会议上告诉员工，该计划将于今年晚些时候推出。”

Gemini 是一个多模式智能网络，能够同时处理多种类型的数据和任务。这包括文本、图像、音频、视频、3D 模型，甚至图表。Gemini 不仅仅是一个单一的模型。它是一个模型网络，每个模型都对系统的整体功能做出贡献。这种网络架构使 Gemini 能够处理各种各样的任务，而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习，使 Gemini 成为一个极其多功能且强大的人工智能工具。

Gemini 使用融合了多模态编码器和解码器的新架构。编码器的工作是将不同类型的数据转换为解码器可以理解的通用语言。然后解码器接管，根据编码输入和手头的任务生成不同模式的输出。用户提供各种格式的输入---文本、图像、音频、视频、3D模型、图形等。编码器获取这些输入并将它们转换为解码器可以理解的通用语言。编码后的输入随后被输入到模型中。该模型与任务无关，这意味着它不需要知道它正在执行的任务的细节，只是根据手头的任务处理输入。解码器从模型中获取经过处理的输入并生成输出。根据用户偏好，输出可以采用不同的方式。

二、Gemini系统为何与众不同？

我们其实可以从DeepMind和Google Brain合并，一窥Google对Gemini孤掷一注的决心，一直以来DeepMind都是Google内部‘不服管教’的存在，自从被Google收购以来，一直由创始人Demis Hassabis（戴密斯·哈萨比斯）管理，而Google Brain一直由老将Jeff Dean负责，这次合并成Google DeepMind之后，Hassabis担任CEO，Jeff Dean担任首席科学家，二人分别同时向皮柴汇报，这次Gemini （双子星）系统的命名确实有些意味深长~

Gemini 似乎将不仅仅是一个新的人工智能模型；这是对人工智能未来的一瞥，凭借其多模式功能和创造力，Gemini 将重新定义人工智能的功能以及我们与其交互的方式。

GPT-4 VS Gemini系统

GPT-4 主要是基于文本的模型，它旨在处理涉及文本数据的任务，例如撰写论文、回答问题或翻译语言。谷歌开发的Gemini是一个多模态智能网络，这意味着它旨在同时处理多种类型的数据和任务。Gemini 可以处理文本、图像、音频、视频、3D 模型，甚至图形。这使得 Gemini 比 GPT-4 更加通用，因为它可以处理更广泛的任务和数据类型。

Gemini 不仅仅是一个单一的模型，而是一个模型网络。这种网络架构使 Gemini 能够处理各种各样的任务，而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习，使 Gemini 成为一个极其多功能且强大的人工智能工具。它的适应性更强。它可以处理任何类型的数据和任务，无需专门的模型或任何类型的微调。另外，它可以从任何领域和数据集中学习，而无需被预定义的类别或标签限制。

三、一些想法

借用一个简单的例子来说明笔者的观点，你准备学习国际象棋，闭门苦修每日背诵棋谱，观看大师的比赛，认真观察并思考如何下棋。但你依然没成为一个优秀的棋手。

你开始和棋道大师对垒，大师默默地做出动作并每次都能把你逼至角落，一次次的失败开始让你不断进行学习，然而，你在失败时的进步十分缓慢，在你看来，你需要更多的比赛才能达到不错的水平。但结果依然还是胜少败多，你开始鼓起勇气向大师请教，大师向你解释开局、策略和战术，让你反复从相同的起始位置开始学习如何破解它们，并在每个阶段都和相同水平的学徒竞争，你终于感觉自己在稳定进步并掌控了下棋的窍门。

这同时引出了学习的三种范式：

模仿学习。被动的学习并观察，从数以千万的棋局中学习获胜的方法，棋道大师可能精心铺设多步来实现其目标，并且有着丰富的上下文环境，可能的动作序列会呈指数级爆炸。
自主学习。和专家互动，每次行动的最终结果都会得到反馈，开始慢慢修正自己的表现，这依然需要不断的尝试才能得到大概的方案。
指导学习。专家通过简短的动作序列和即时的反馈让你学习问题的解决方案，通过学习的大量的组合方案，你将学会问题的有效解决算法。

现有的范式大都通过预训练(模仿学习)构建基座模型+基于基座模型进行指令微调和人类反馈强化学习RLHF等进行对齐(自主学习)。但这距离AGI的实现还相去甚远，目前RLHF的对齐方案面临着诸多限制（基座模型能力限制了模型的泛化性、对齐税（alignment tax））并且还有目前所有基座模型挥之不去的Hallucination现象。

LeCun 得出的结论是：“auto-regressive LLMs are doomed”（自回归模型终将失败），并提出了世界模型。虽然LeCun的想法招致了巨大的争议，但模仿学习（auto-regressive learning）+自主学习(对齐)终究类似于‘邯郸学步’，这里说一点笔者的想法，我们或许可以不断学习世界的大量文本从而一定程度上理解世界，但是我们绝不可能通过看特级大师下棋从而成为特级大师，专家的思维可能根本无法从其行为中推断出来，目前的对齐只能在Chat场景玩一玩，实际在垂直领域的应用中，大模型对齐方案解决不了根本问题。那么自然而然，将指导学习融入模仿学习中更符合笔者心目中下一代模型的畅想，即把强化学习融入到模型训练阶段，能够从环境中不断学习，实现智能的进化，进而实现通用人工智能AGI。

在去进一步推导，有了这样的想法，我们该去怎么做？

Demis Hassabis明确表示了在 Gemini 上使用了 AlphaGo的强化学习技术（有些指导学习的意味了），Gemini 是一个模型网络。这种网络架构使 Gemini 能够处理各种各样的任务，而无需为每一项任务建立专门的模型。网络中的不同模型进行协作、共享信息并相互学习，使 Gemini 成为一个极其多功能且强大的人工智能工具。

味道对了！笔者认为，Gemini将会让Google迎来属于他自己的ChatGPT时刻，而这种想法部分来自于DeepMind曾经的成功，如其开发的AlphaFold2真切的改变了一个领域的范式，而Google举其全部的AI力量做出来的Gemini我们不可能不去期待，并且另一部分来自于Gemini非常符合笔者对未来通用模型架构的观念。

或许，真如Hassabis所说，在Gemini面前，如今的聊天机器人看起来微不足道。

Gemini大概率会在10月份发布，但也可能会稍晚一些，这一次，Google赌上了全部身家在Gemini上，我们拭目以待！

大模型AI全栈手册

**行业首份AI全栈手册开放下载啦！！**

长达3000页，涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”，回复“789”下载资料

谷歌创始人布林重返职场，投入研发AI杀手锏！预计下半年推出下一代通用模型『Gemini』，和OpenAI的终局之战！

一、Gemini系统

二、Gemini系统为何与众不同？

GPT-4 VS Gemini系统

三、一些想法

猜你喜欢