赶超GPT-4性能,谷歌最新多模态Gemini发布

Google Gemini 是 Google 正在推出的一套新的生成式 AI 服务,专门针对有兴趣扩展其 AI 服务的企业。它是由 Google DeepMind 项目创建的一系列多模态 AI 模型(我们将在下面详细介绍)。

官方:Gemini - Google DeepMind 

博客:Introducing Gemini: Google’s most capable AI model yet (blog.google)

在一份技术报告中,Gemini 表示它超越了现存最强大的基础模型 GPT-4,并表明它不仅在文本生成方面领先,而且在多模态识别和处理方面也处于领先地位。 此外,谷歌还推出了三款尺寸的型号——Gemini Ultra、Gemini Pro 和 Gemini Nano——并公开披露了 Nano 的参数数量,分别是 Nano-1 的 1.8BNano-2 的 3.25B, 这是一个真正的sLM。

技术报告:fileAttachment/slash/20231207/002858_qBbKrthTqahGlDGXU1_Gemini_tech_report_Resized.pdf (cafenono.com)

按型号尺寸划分的功能

Gemini Ultra 是市面上最大的型号,提供最强大的性能来处理复杂的任务。

  • 极其复杂的任务:Gemini Ultra 旨在处理非常复杂的任务,并且在这一领域表现出色。它在多个领先的基准测试中实现了最先进的性能。
  • 多模态理解:作为多模态模型,Gemini Ultra 在理解和推断不同类型的数据方面非常强大,包括文本、图像、音频、视频等。
  • 规模和效率:它使用 TPUv4 加速器进行大规模训练,并针对大规模高效操作进行了优化。
  • 最先进的性能:Gemini Ultra 在 MMLU 基准测试中达到了惊人的 90.04% 的准确率,并且在数学和编码等其他领域也表现出色。

Gemini Pro 是一种可以在各种任务中有效扩展的模型。

  • 可跨各种任务进行扩展:Gemini Pro 最适合跨各种任务进行扩展。基础设施和学习算法允许使用比 Gemini Ultra 更少的资源进行快速预训练。
  • 优化的性能:针对各种 AI 任务优化性能,非常适合希望构建和扩展 AI 的企业客户和开发人员。
  • 多功能性:Gemini Pro 没有 Gemini Ultra 那么大,但它的性能与其他型号相似,可以更有效地服务。

Gemini Nano 是最小的型号,旨在高效地在个人设备内完成工作。

  • 设备端操作的效率:Nano 模型专为设备端部署而设计,优先考虑效率和速度。
  • 小而强大:尽管尺寸小,但纳米模型在总结和阅读理解等任务中表现出令人印象深刻的性能。
  • 可访问性:Gemini Nano 模型能够在各种平台和设备上工作,使高级 AI 功能更易于访问。

Gemini AI 是谷歌 AI 技术进步开辟新天地的模型。凭借在从文本到多模态的广泛领域中的出色表现,以及有效理解和处理复杂信息的能力,它正在照亮人工智能的未来。它有望为每个使用人工智能的人提供高价值。

模型能力

文本处理能力

Gemini Ultra 在涵盖 57 个受试者的 MMLU 基准测试中以 90.0% 的表现优于人类专家。

在同一测试中,OpenAI 的 GPT-4 以 86.4% 的成绩优于 Gemini Ultra,而在复杂的数学推理的 Big-Bench Hard 中,Gemini Ultra 的表现优于 GPT-4,为 83.6%,为 83.1%。

多模态处理能力

在图像理解方面, Gemini Ultra 以 77.8% 的 77.2% 优于 GPT-4V 。

在文档理解方面, Gemini Ultra 的表现也优于 GPT-4V 的 88.4%,为 90.9%。

需要注意的事项

多模态理解:Gemini AI 在理解多模态的能力方面已经超越了当前的最先进的 (SOTA) 模型。展示在没有 OCR 系统帮助的情况下理解和解决图像问题的能力。

代码生成:可以从 Python 等流行的编程语言生成高质量的代码。这有助于开发人员更快、更高效地发布应用程序并改进他们的服务。

模型架构

在模型架构方面,Gemini依然采用Transformer架构,采用了高效的Attention机制,支持32k的上下文长度。

报告中,在多选问题、数学问题、Python代码任务、阅读等方面,Gemini Pro和Ultra与GPT-4、GPT-3.5等其他LLM的评分对比如下:

 模型效果

Gemini AI 的工作原理

Gemini 可能会使用 Google Pathways 架构。在这种类型的 AI 架构中,最初会教一系列模块化机器学习 (ML) 模型如何执行特定任务。训练完成后,这些模块将被连接起来形成一个网络。

联网的模块可以独立工作,也可以协同工作以生成不同类型的输出。在后端,编码器将不同类型的数据转换为通用语言,解码器根据编码的输入和手头的任务以不同的模式生成输出。

预计谷歌将使用 Duet AI 作为 Gemini 的前端。这个用户友好的界面将隐藏 Gemini 架构的复杂性,并使具有不同技能水平的人能够将 Gemini 模型用于生成式 AI 目的。

Gemini AI 是如何训练的

据称,Gemini LLM 模型已使用以下技术组合进行训练:

一些行业专家推测,谷歌严重依赖人类反馈强化学习(RLHF)在Cloud TPU v5e芯片上训练Gemini模块。据谷歌称,TPU 的计算能力是用于训练 Chat GPT 的芯片的五倍。

谷歌工程师很可能使用了LangChain框架,并重新利用了他们最近用来训练PaLM 2的数据。

猜你喜欢

转载自blog.csdn.net/weixin_44649780/article/details/134851693