硅谷极客爆料GPT-4的参数和设计,同时吐槽OpenAI和马斯克

GPT-4是OpenAI最新发布的自然语言生成模型,它是继GPT-3之后的又一次突破,拥有惊人的1.76T参数,可以生成各种各样的文本内容。但是,关于GPT-4的具体参数和架构设计,OpenAI并没有公开太多细节,只是说它是基于transformer的模型,使用了大量的数据来训练。

GPT-4是OpenAI最新发布的自然语言生成模型

最近,一位知名的硅谷极客George Hotz在一期播客中透露了他对GPT-4的一些内幕消息,他说GPT-4其实是8个一模一样的220B模型连起来做的,只是训练数据不同,8个专家模型mixture expert model,每次推理要做16次循环推理。他认为这种设计并不是很优雅,而且会导致模型生成内容的幻觉或者说重复输出内容的崩溃情况。

George Hotz不仅对GPT-4有着非常详细的了解,他还对OpenAI和马斯克有着自己独到而尖锐的观点。他既敬佩又不屑OpenAI,他承认OpenAI是深度学习领域的绝对领导者,拥有顶尖的工程技术和理论家。但他也不喜欢OpenAI高超的工程技巧,并认为这是惨痛的教训。他说OpenAI做了很多不必要的事情,比如用自己写的语言JAX来实现transformer。他认为transformer 的良好效果奥秘不在于注意力机制而是它是半权重共享。因为权重矩阵是动态生成的,所以你可以压缩权重矩阵。

George Hotz和马斯克有过一段交集,他曾经在Twitter上被马斯克邀请去特斯拉工作,并且还拿到了一个口头offer。但最后他没有去成,而是选择了自己创业做自动驾驶。他说马斯克和自己有着不同的学科底色,马斯克是物理学,而自己是信息论。他说马斯克想要去火星,而自己想要做出AI机器人。他说他的路线图是第一家公司构建硬件基础设施,第二家TinyCorp 构建软件基础架构,第三家公司是第一家要制造真正产品的公司。那个产品就是AI Girlfriend。

除了对GPT-4、OpenAI和马斯克的看法外,George Hotz还分享了他对AI发展趋势的三个猜想:

**第一猜想:**AI算力每十年加速六个数量级

**第二猜想:**AI全方位能力(感知/决策/生成)错误率每十年下降一个数量级

**第三猜想:**AI错误率每下降一个数量级(加上新能力涌现),应用范围和领域(市场规模)上升一个数量级

他用了一些图表和数据来支持他的猜想,他认为AI的发展速度是惊人的,但也不是无限的,还有很多挑战和困难需要克服。他说降低cross entropy loss机器学习损失函数,每前进一步其实都异常的艰难,耗费的算力都是指数级上升,真的是路漫漫其修远兮,吾将上下而求索。

这期播客让我们看到了一位硅谷极客的思维方式和价值观,虽然有些观点可能有争议,但也不失为一种启发。我们觉得George Hotz是一个有趣而又有才华的人,他的一些项目和创意都很有意思,比如tinygrad和tinybox。我们也很期待他的下一步动作,希望他能实现他的梦想。

猜你喜欢

转载自blog.csdn.net/virone/article/details/131374888