GPT-4是8x2200亿参数的混合模型？这个小道消息今天传疯了

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：机器之心 | 编辑：吴昕

George Hotz：除了苹果之外，大部分公司保密的原因都不是在隐藏什么黑科技，而是在隐藏一些‍「不那么酷」的东西。

「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。

不过很快，OpenAI 的 CEO Sam Altman 就出来辟谣，证实这是一条假消息，并表示，「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」

实际上，许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后，很多机构也陆续推出了自己的万亿参数大模型。据此，人们有充分的理由相信，GPT-4 将是一个万亿参数的巨量模型，100 万亿参数也不是不可能。

虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案，但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶，就连 GPT-4 的官方技术报告也没透露任何信息。

直到最近，这个谜团疑似被「天才黑客」乔治・霍兹（George Hotz）捅破了。

乔治・霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名，目前是一家研发自动驾驶辅助系统的公司（comma.ai）的老板。

最近，他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中，他谈到了 GPT-4，称 GPT-4 其实是一个混合模型。具体来说，它采用了由 8 个专家模型组成的集成系统，每个专家模型都有 2200 亿个参数（比 GPT-3 的 1750 亿参数量略多一些），并且这些模型经过了针对不同数据和任务分布的训练。

在这段播客播出之后，PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」，很多人可能也听过，但只有 George Hotz 在公开场合将其说了出来。

「混合模型是你在无计可施的时候才会考虑的选项，」George Hotz 调侃说，「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好，但如果仅仅是训练时间更长，效果已经递减。因此，他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的，George Hotz 并没有详细说明。

为什么 OpenAI 对此讳莫如深呢？George Hotz 认为，除了苹果之外，大部分公司保密的原因都不是在隐藏什么黑科技，而是在隐藏一些「不那么酷」的东西，不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。

对于未来的趋势，他认为，人们会训练规模较小的模型，并通过长时间的微调和发现各种技巧来提升性能。他提到，与过去相比，训练效果已经明显提升，尽管计算资源没有变化，这表明训练方法的改进起到了很大作用。

目前，George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。

有人从中得到了灵感，声称要训练一个 LLaMA 集合来对抗 GPT-4。

还有人说，如果真的像 George Hotz 说的那样，GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型，那很难想象背后的推理成本有多高。

需要指出的是，由于 George Hotz 并未提及消息来源，我们目前无法判断以上论断是否正确。

参考链接：https://twitter.com/soumithchintala/status/1671267150101721090

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者ransformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

GPT-4是8x2200亿参数的混合模型？这个小道消息今天传疯了

猜你喜欢