苹果发布开源多模态大语言模型 Ferret

科技媒体 VentureBeat 报道称，苹果公司在 2023 年 10 月低调发布了一款名为 Ferret 的开源多模态大语言模型，这是苹果与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码和权重（仅限研究用途，不包含商业许可），但并未引起太多关注。

随着近期Mistral 的开源 MoE 模型成为焦点，以及谷歌的 Gemini 模型即将在 Pixel Pro 上亮相，未来还将进入 Android 系统，越来越多人开始关注本地 LLMs 为小型设备提供支持的潜力。

近日，专注于医疗领域开源 AI 的欧洲非营利组织负责人 Bart de Witte 在 X 平台上分享了他的惊讶：“我之前竟然没发现这个。” 他表示，“苹果在 10 月份加入了开源 AI 圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺，巩固了它在多模态 AI 领域的领先地位…… 另外，我很期待有一天 Local Large Language Models (LLLMs) 能作为重新设计的 iOS 的一部分，在我的 iPhone 上运行。”

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说，该模型可以分析图像上绘制的区域，确定其中对用户查询有用的元素，并将其识别出来，在检测到的元素周围绘制一个边界框。然后，它就可以将识别出的元素用作查询的一部分，并以典型的方式作出响应。

例如，高亮显示图像中的动物图片并询问 LLM 这是什么动物，LLM 可以确定该动物的种类，并确定用户所指的是动物群中的某只动物。然后，它还可以利用图像中检测到的其他项目的上下文，提供进一步的回复。

GitHub：https://github.com/apple/ml-ferret
论文：https://arxiv.org/abs/2310.07704

Ferret 拥有 (7B, 13B) 两个版本，为了增强 Ferret 模型的能力苹果特别收集了一个 GRIT 数据集。它包含了 1.1M 个样本，这些样本包含了丰富的层次空间知识。

尽管苹果以往以其产品和技术的封闭性著称，但现在它通过发布开源LLM模型，正逐渐改变这一形象，展现出其在AI领域的活跃参与和创新精神。这不仅对苹果自身，也对整个AI领域来说，都是一个值得关注的重要发展方向。

VentureBeat 撰稿人 Ben Dickson 写道：“2023 年最让你意外的人工智能进展是什么？对我来说，是苹果发布了开源 LLMs（虽然是非商业许可）。”他指出，苹果一贯以来是封闭系统、围墙花园开发、保密、严格的保密协议、发布极少细节、并为其产品申请每一项小的专利的代表。

苹果发布开源多模态大语言模型 Ferret

猜你喜欢