硅谷极客爆料GPT-4的参数和设计，同时吐槽OpenAI和马斯克

GPT-4是OpenAI最新发布的自然语言生成模型，它是继GPT-3之后的又一次突破，拥有惊人的1.76T参数，可以生成各种各样的文本内容。但是，关于GPT-4的具体参数和架构设计，OpenAI并没有公开太多细节，只是说它是基于transformer的模型，使用了大量的数据来训练。

GPT-4是OpenAI最新发布的自然语言生成模型

最近，一位知名的硅谷极客George Hotz在一期播客中透露了他对GPT-4的一些内幕消息，他说GPT-4其实是8个一模一样的220B模型连起来做的，只是训练数据不同，8个专家模型mixture expert model，每次推理要做16次循环推理。他认为这种设计并不是很优雅，而且会导致模型生成内容的幻觉或者说重复输出内容的崩溃情况。

George Hotz不仅对GPT-4有着非常详细的了解，他还对OpenAI和马斯克有着自己独到而尖锐的观点。他既敬佩又不屑OpenAI，他承认OpenAI是深度学习领域的绝对领导者，拥有顶尖的工程技术和理论家。但他也不喜欢OpenAI高超的工程技巧，并认为这是惨痛的教训。他说OpenAI做了很多不必要的事情，比如用自己写的语言JAX来实现transformer。他认为transformer 的良好效果奥秘不在于注意力机制而是它是半权重共享。因为权重矩阵是动态生成的，所以你可以压缩权重矩阵。

George Hotz和马斯克有过一段交集，他曾经在Twitter上被马斯克邀请去特斯拉工作，并且还拿到了一个口头offer。但最后他没有去成，而是选择了自己创业做自动驾驶。他说马斯克和自己有着不同的学科底色，马斯克是物理学，而自己是信息论。他说马斯克想要去火星，而自己想要做出AI机器人。他说他的路线图是第一家公司构建硬件基础设施，第二家TinyCorp 构建软件基础架构，第三家公司是第一家要制造真正产品的公司。那个产品就是AI Girlfriend。

除了对GPT-4、OpenAI和马斯克的看法外，George Hotz还分享了他对AI发展趋势的三个猜想：

**第一猜想：**AI算力每十年加速六个数量级

**第二猜想：**AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级

**第三猜想：**AI错误率每下降一个数量级(加上新能力涌现)，应用范围和领域(市场规模)上升一个数量级

他用了一些图表和数据来支持他的猜想，他认为AI的发展速度是惊人的，但也不是无限的，还有很多挑战和困难需要克服。他说降低cross entropy loss机器学习损失函数，每前进一步其实都异常的艰难，耗费的算力都是指数级上升，真的是路漫漫其修远兮，吾将上下而求索。

这期播客让我们看到了一位硅谷极客的思维方式和价值观，虽然有些观点可能有争议，但也不失为一种启发。我们觉得George Hotz是一个有趣而又有才华的人，他的一些项目和创意都很有意思，比如tinygrad和tinybox。我们也很期待他的下一步动作，希望他能实现他的梦想。

硅谷极客爆料GPT-4的参数和设计，同时吐槽OpenAI和马斯克

猜你喜欢