超越GPT-4！谷歌AI大模型Gemini震撼发布

原创 | 文 BFT机器人

在Open AI风头正盛之际，谷歌大杀器终于上线！

当地时间12月6日，谷歌CEO桑达尔・皮查伊宣布正式推出其规模最大、功能最强大的新大型语言模型Gemini 1.0版。

据悉，Gemini 1.0是谷歌筹备了一年之久“对抗”GPT-4的真正竞品，也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型。其下包括三种不同套件，分别是能力最强复杂度最高的Gemini Ultra，适配性拓展性最强的Gemini Pro和适用于特定任务或端侧的Gemini Nano。

目前，谷歌旗下类ChatGPT的人工智能聊天机器人Bard已经启用Gemini Pro作为底层大模型驱动，实现了更高级的推理、规划、理解等能力，同时继续保持免费。并且谷歌预计明年将推出“Bard Advanced”，计划使用Gemini最顶配的Ultra版本。

01

文本、图像、音频精准理解

Gemini 1.0经过训练，可以同时识别和理解文本、图像、音频等各种形式的输入内容，因此它也能更好地理解细微的信息，回答与复杂主题相关的各类问题。

当你随手画个鸭子，从曲线开始到鸭子成型，Gemini都可以精准识别。给鸭子身下画条波浪线，它也能快速理解你的言外之意，精准地指出鸭子在水中游泳的场景，甚至还能模仿鸭子的叫声，或者用其他语言说出鸭子的叫法。

或者闲暇时刻，跟Gemini玩个游戏，即使你的手速再快，也逃不过Gemini的眼睛。

02

复杂推理能力强悍

此外，Gemini 1.0具有复杂多模态推理能力，可以帮助更好地理解复杂的书面以及视觉信息。这使得它在发掘埋藏在海量的数据中难以辨别的知识方面具有优越的性能。Gemini 1.0能够通过阅读、理解和过滤信息从数十万份文件中提取insights的能力，这有助于科学、金融等诸多领域实现新突破。

谷歌首席科学家、人工智能负责人Jeff Dean也通过一个简单的示例为大家展示了Gemini 1.0的能力：

当用户提供给Gemini一份学生手写的计算滑雪者滑到山下速度的解题内容提示后，Gemini能够在读懂题目的同时，指出正确的解答方法应该是怎样。这仅仅是在教育方面的能力体现，而未来这样的多模态能力或许能够在许多不同的领域发挥巨大作用。

03

Gemini VS GPT-4

据谷歌内部消息称，Gemini有亿万参数，训练所使用的算力甚至达到了GPT-4的五倍之多！通过在多种任务对比评估Gemini Ultra和GPT-4两个模型的性能，从谷歌官方放出的测试结果来看，在文本、推理、音频、代码等领域，Gemini的表现几乎是全方位碾压了GPT-4。

MMLU（大规模多任务语言理解）是结合了数学、物理、历史、法律、医学和伦理学等57个科目的测试集，通常被认为是测试AI模型知识和解决问题能力最流行方式之一。而在MMLU测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家，作为对比，GPT-4仅有86.4%的准确率。

04

Gemini的下一步

虽然谷歌官方资料和演示视频把Gemini吹得神乎其神，仿佛已经“遥遥领先”Open AI，但实际上有能力对标GPT-4的Gemini Ultra要到明年年初才会上线。

据悉，Gemini Ultra模型目前正处于信任和安全检查阶段，同时使用微调和人类反馈强化学习（RLHF）进一步完善模型。之后，谷歌会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra，供其进行早期实验和反馈。而普通用户体验Gemini Ultra的首个方式会是通过Bard Advanced，谷歌表示将在明年年初推出Bard Advanced。

若您对该文章内容有任何疑问，请与我们联系，我们将及时回应。