Arquitecto jefe de GPT: el futuro de los grandes modelos de lenguaje

imagen.png

Fuente | Stanford eCorner

compilación OneFlow

Traducción | Yang Ting, Wan Zilin, Jia Chuan

Mirando hacia atrás, el nacimiento de ChatGPT ha verificado la dirección de desarrollo de IA que Ilya Sutskever imaginó previamente ( mp.weixin.qq.com/s/Q1G0Yv11W…

En los primeros días de OpenAI, Pieter Abbeel, un gurú del aprendizaje por refuerzo, trabajó con Ilya. En su opinión, el pensamiento de Ilya sobre la IA siempre está por delante de los demás y, para verificar sus propias ideas, siempre se reemplaza a sí mismo en el momento adecuado. .situación de trabajo, e hizo el trabajo más innovador en el campo.

Ilya nació en Rusia. A la edad de cinco años, Ilya se mudó a Israel con su familia para estudiar y vivir. Cuando era estudiante, se transfirió a la Universidad de Toronto para estudiar una licenciatura en matemáticas, donde obtuvo una doctorado en informática Estudió con el "padrino" del aprendizaje profundo Geoffrey Hinton ( mp . weixin.qq.com/s/aC2mrr_o-… . En 2012, bajo la dirección de Hinton, él y Alex krizhevsky propusieron la red AlexNet, que abrió una nueva ronda de revolución de aprendizaje profundo. Luego, Ilya se unió al trío de Hinton, la empresa DNN -research, y fue adquirida por Google en 2013, e Ilya se unió al trabajo de inmediato. En 2015, Ilya dejó Google, y Musk, Sam Altman ( mp .weixin.qq.com/s/Ek5Xyj2gg… , Greg Brockman ( mp.weixin. qq.com/s/hO1ZdqgOj… y otros fundaron OpenAI, y hasta ahora ha sido el científico jefe de la empresa.

A partir de AlexNet, AlphaGo, GPT, CLIP, DALL-E y Codex son pioneros en la industria. Sin embargo, fue ChatGPT lanzado en noviembre de 2022 lo que empujó al científico al centro del escenario mundial, y él es el fundador y diseñador jefe detrás de la serie de modelos GPT.

El modelo de lenguaje a gran escala representado por ChatGPT ha tenido un gran impacto en todo el mundo y se considera un avance revolucionario en el campo de la ciencia y la tecnología.

Sin embargo, de cara al futuro, el desarrollo actual de grandes modelos de lenguaje no será la historia completa del progreso de la IA. Ilya tiene una metáfora para esto: si piensas en la IA como un cuerpo, también necesitas músculos, huesos y sistema nervioso, y solo tienes una de estas partes, está bien, pero eso no será un progreso real, debes reunir todo. partes

El desarrollo de la IA continuará. Recientemente, en una conversación en línea con Ravi Belani, profesor invitado en la Universidad de Stanford, Ilya compartió sus pensamientos sobre el desarrollo futuro de modelos de lenguaje grandes, aprendizaje profundo y OpenAI.

Él predice que el aprendizaje profundo y los modelos de lenguaje a gran escala seguirán evolucionando: el futuro del campo probablemente consistirá en una pequeña cantidad de grandes avances, además de muchas pequeñas mejoras, todo integrado en un cuerpo de ingeniería grande y complejo. También ofrece algunos experimentos mentales interesantes y ejecutables.

(El siguiente contenido es compilado por OneFlow, comuníquese con OneFlow para obtener autorización para la reimpresión. Fuente: *
www.youtube.com/watch?v=Wmo …

1

Grandes modelos de lenguaje e inteligencia humana

Ravi Belani: Los modelos de lenguaje grande son una tecnología clave para la IA generativa. OpenAI se encuentra actualmente a la vanguardia de esta tecnología. ¿Hay algo sobre esta tecnología que no esperaba?

Ilya Sutskever: El principio de funcionamiento de los grandes modelos de lenguaje es simple y fascinante. Como todos sabemos, el cerebro humano está compuesto por una gran cantidad de neuronas, y es la cosa más inteligente del mundo. Los neurocientíficos han estado estudiando las neuronas durante décadas, tratando de descubrir cómo funcionan, y mientras los misterios de cómo funcionan las neuronas biológicas aún se están descifrando, a principios de la década de 1940, a través de una observación cuidadosa, investigación de aprendizaje profundo Los investigadores tuvieron una idea audaz: la Las neuronas artificiales en la red neuronal artificial son en realidad algo similares a las neuronas biológicas. Podemos realizar investigaciones sobre la base de esta suposición.

相比生物神经元,人工神经元要简单得多,并且我们可以对其进行数学研究。在这一领域被命名为深度学习之前,早期,深度学习先驱们取得了一个非常重要的突破——反向传播算法。这个算法是关于人工神经网络如何学习的数学方程,提供了一种在计算机中实现这个神经网络并编写代码的方法,并告诉我们神经网络应该如何根据经验来调整连接。

对学习过程以及学习过程运行条件的了解关系到我们所能取得的进一步进展。虽然我们用的是计算机去操作学习过程,但这却更像是实验科学或生物实验。大多数深度学习进展都可以归结为:在大型计算机中建构神经网络,然后用数据对其进行训练,让这些神经网络完成训练数据要求它们完成的任务。

大型语言模型的理念是:如果有一个大型神经网络,我们可以对其进行训练,让它根据前面的文本内容预测下一个单词。再看最初的猜想:也许生物神经元和人工神经元极为类似,没有太大区别。那么,如果有一个可以准确预测下一个单词的大型神经网络,它的运转方式也许类似于人们谈话时生物神经元的运转方式。如果我们和这样的神经网络对话,因为它能够准确预测下一个单词,所以可以在理解对话的基础上,准确地缩小生成对话的可能性范围。

精确猜测下一个单词需要进行预测,这也是理解的方式。我们很难清楚定义神经网络的“理解“,但我们可以轻易测量和优化网络对下一个单词的预测误差。
我们想要神经网络拥有“理解”能力,但能做的是优化预测,而这也正是我们目前在做的事。通过优化预测得到了目前的大型语言模型,它们都是用强大的反向传播算法训练的神经网络,由此可以想象,人工神经元和生物神经元并没有太大区别,如果留心观察,我们会发现人脑很擅长猜测下一个单词。

Ravi Belani:此前,我们认为机器是无法进行学习的,但现在发现机器可以学习,对即将发生的结果进行预测。如果人类处于1X学习阶段,那么与人类相比,ChatGPT等模型处于何种阶段?

Ilya Sutskever: 我们很难在人工神经网络和人类之间做直接对比,因为人类可以从较少的数据中学习很多知识,但大型语言模型却无法做到这点,所以ChatGPT等模型才需要用更多的数据进行训练,以弥补它们在学习方面的先天不足。随着不断进行训练,这些神经网络会变得越来越优秀,学习速度也越来越快。

总体上看,神经网络和人脑还是有很大差异,学习方式大有不同。神经网络十分擅长数学和编程,为了掌握数学或编程等能力,它们需要学习吸收大量数学书籍,但对人类而言,做同样的事情,可能只需要看一两本数学书,再做一两百道练习题就够了。

Ravi Belani:如果不考虑数据方面的限制,让模型吸收尽可能多的数据,那它现在的学习能力是否达到了人类的十分之一?

Ilya Sutskever: 这个问题给任何回答都具有误导性。显然,目前神经网络所储备的知识量以及所掌握的技术都远超人类水平,比如这些模型十分擅长诗歌创作,它们可以就任何话题发表长篇大论,还可以谈论历史等等。但从另一角度,人类可以对这些问题进行更深层次的探讨,比如人类专家可以在只读了少量文献的基础上,对某个话题发表深入见解。

Ravi Belani:机器的学习和适应速度是否会超过人类?这样的奇点是否存在?

Ilya Sutskever: 会的。在这方面我们还会取得进展,但距离奇点的发生还要很久,我不能给出一个确切时间。

Ravi Belani:现在,有人对AI的发展表示担忧,特别是苹果的联合创始人Steve Wozniak和埃隆·马斯克,两人曾公开签署过一份请愿书,声称人类已经接近甚至可能越过了技术发展红线,如果现在不中止AI的发展,将无法控制其带来的后果。不过,Sam Altman(OpenAI CEO)对此基本持反对意见,在你看来,AI发展是否应该受到一些监管或监督的限制?

Ilya Sutskever: 人工智能将变得非常强大,并具备真正的变革力量,我们确实需要朝着一个制定政府监管的世界前进,其中有以下几个方面需要考虑。

首先,我们希望生活在一个制定明确规则的世界,例如对训练更强大的神经网络制定规范。其次,我们需要对神经网络的训练进行谨慎评估,预测其当前和未来能够实现的能力,比如在一年之后或者训练完成时达到的能力。这些措施必不可少,以确保人工智能的发展合理并可靠。

我们追求的是一个每一步都经过充分准备、验证和认证的世界。我相信,这是我们应该致力于发展的正确方向。

2

机器“意识”的思想实验

Ravi Belani:你小时候曾困惑于“意识”这个概念,你是否认为“意识”、“感觉”或“自我意识”等是学习的延伸?“意识”是否无可避免,注定会产生?

Ilya Sutskever: 小时候,看着自己的双手,我会好奇为什么眼前这个东西是我的手呢?“意识”仿佛是自然而然产生的,我不知道该如何更好地对“意识”进行解释。

众所周知,“意识”是很棘手的问题,它没有明确的定义,并且我们也没有“意识”检测系统。有时对于完美运行的系统,我们会猜测它也许具有“意识”,但出于某些原因,这个系统其实并没有“意识”。

将来,当AI系统能够快速从少量数据中学习时,我们也许可以用一种简单的方式在AI系统上做实验:在实验中,我们要非常谨慎地整理数据,确保数据未包含任何与“意识”有关的内容。这些训练数据只陈述客观事实,比如这里有一个球,那里有一座城堡,另一边有一个玩具等等,这类数据具有高度可控性。接下来几年,我们就用这类数据对模型进行训练。

或者,我们还可以让模型与许多不同的老师进行互动,让老师帮助它们学习,但在整个训练过程中,我们要十分小心,不能提及任何与“意识”相关的内容,只告诉模型最表层的概念。当训练达到一定程度时,我们再告诉AI与“意识”相关的内容。

试想一下,AI会有何种反应,它们会不会早就感受到了“意识”,然后说“天啦,我早就有这种感觉了,只是不知道该如何形容”,AI的这种反应是可以接受和预料的。

如果AI只有一些非常单调狭窄的训练数据,那么它可能永远不会有意识,但如果AI能以人类可理解的方式,正确且头头是道地谈论“意识”,那么它可能真的有“意识”了。

Ravi Belani:“意识”是程度问题还是二元问题?

Ilya Sutskever:“意识”是分程度的。 比如当一个人非常累或者喝醉了,他的“意识”可能会在某种程度降低。在我看来,不同的动物拥有不同的“意识”程度,比如从狗到猫到老鼠再到昆虫的“意识”程度应该呈连续的下降趋势。

3

开源与闭源,营利与非营利

Ravi Belani:众所周知,OpenAI的使命是确保通用人工智能造福全人类。最初,马斯克招募你加入OpenAI,并捐赠了1亿美元,当时OpenAI还是一个非营利性的开源机构。马斯克表示,创办OpenAI最初的愿景是创建一股与谷歌和业界相抗衡的研究力量,考虑到AI对人类可能存在的潜在威胁,他不希望AI行业完全由企业和营利性组织掌控。如今,OpenAI却成为营利性的闭源组织,与微软关系密切,似乎正朝着微软和谷歌两家独大的垄断方向发展。

作为OpenAI的首席科学家,你如何看待这一转变?在做出这一决策时,你是否考虑了道德因素?还是说道德准则是其他人的责任,你的主要任务是推动技术发展?

Ilya Sutskever: 我对OpenAI的一切事务都负有直接责任,即便我的角色主要是推动技术进步,但作为公司创始人之一,我十分关心OpenAI的整体影响。在这一背景下,再来讨论开源与闭源、非营利与营利。

AI的挑战在于它能够包罗万象,因而面临众多不同的挑战和利益冲突。开源与闭源之争就是一个很好的例子,为什么提倡AI开源?首先,开源AI能够防止权力过度集中于构建AI的人手中,如果只有少数几家公司掌控这项强大的技术,显然是不合理的,AI应当是开源的,任何人都可以使用。以上是支持AI开源的论点。

但显然,短期来看,出于商业利益,有人会反对AI开源。同时,长远来看,若有人相信最终AI将变得十分强大,如果未来某天你仅仅是告诉AI:“嘿!你能自主创建一个生物研究实验室吗?”它就能够自行处理所有的文书工作,找到合适的场所,雇佣技术人员,整合实验等,一切就开始变得难以置信。在这种情况下,AI是否也应该开源?

因此,关于开源问题,可能存在一种层级,来根据神经网络的能力、智能程度和可执行任务的范围来衡量其能力。当AI能力处于较低水平时,开源是一件好事,但在某一时刻(关于何时达到这一时刻可能会引发争论),AI的能力将变得无比强大,这时公开源代码显然是不负责任的行为。

我认为,目前AI的能力水平还不够高,不足以成为推动闭源模式的安全考虑因素。 换句话说,这个问题可以分阶段来看。当前,我们正处于竞争阶段,但随着模型能力的不断增强,总有一天安全会成为一个显著而紧迫的因素,促使我们不再开源这些模型。

Ravi Belani:这是否是OpenAI后来选择闭源的决策动机,还是出于某种契约或商业上的考量,以获得来自微软或其他公司的资金支持,来支撑业务的发展,或是另有原因?

Ilya Sutskever: 在某种意义上,如果OpenAI能够成为一个非营利组织,并一直保持这种状态直到完成使命,这种方式十分可取。然而,值得强调的是,这些数据中心成本十分昂贵,其中绝大部分都流向了云服务提供商。

为什么会出现这种局面?之所以需要这么多资金,是因为大型神经网络的性质决定了它们需要大量的计算资源,再无其他。

可以发现,学术界和人工智能公司之间正发生分化。几十年来,人工智能的前沿研究一直由大学的学术部门推进。直到2010年代中期,这种情况一直存在。但在某个时刻,当一个项目的复杂性提升,成本增加时,大学就失去了竞争力,如今,大学进行人工智能方面的研究需要寻求其他的方式,与过去和当前企业进行的方式截然不同。

基于以上原因,非营利组织的运转会出现问题,因为组织资助者难以从中获取回报,这就成了一场彻头彻尾的捐赠,而且很难说服人们为非营利组织筹集资金。

那么,有没有解决办法或行动方针?我们想到了一个方法,据我所知,OpenAI的这种开放式企业架构在世界上独一无二。

OpenAI不是营利性公司,而是一家有限营利公司,这意味着,OpenAI的股权更像是债券,而不是普通公司的股份。债券的主要特点是一旦支付完毕,整个流程就结束了。换句话说,与普通公司相比,OpenAI对投资者负有限责任。

Ravi Belani:创始人是否持有OpenAI的股份?

Ilya Sutskever: 除了Sam Altman(OpenAI首席执行官)没有股份,其他创始人持有有限股份。

Ravi Belani:股份是如何设定上限的(capped)?我推测创始人不会购买OpenAI的股份,除非股份上限设定为名义股价(nominal share value)。

Ilya Sutskever: OpenAI这一机制与普通的初创公司股份制确实不同,但也存在一些相似之处,即加入公司的时间越早,股份上限就越高,因为需要更高的上限来吸引最初投资者。随着公司业务持续取得成功,上限会逐渐降低。这一点十分重要,这意味着,一旦向投资者和员工了却全部义务,OpenAI将再次成为一个非营利组织。

你可能会觉得这一机制不知所云,好像并没有改变什么,但还需要考虑人工智能未来的发展预期。我认为,OpenAI完全有可能在履行对投资者和员工的义务之后,成为一个非营利组织。当计算机变得十分强大,带来的经济破坏十分严重时,这一转变将大有裨益。

Ravi Belani:怎么看待OpenAI与微软的关系?

Ilya Sutskever: 幸运的是,微软对这些问题的考虑方式十分正确,他们真正理解了人工智能的潜力及其重要性。

举个例子,微软是OpenAI的投资者,和谷歌与DeepMind之间的关系截然不同。所有投资OpenAI的人都签署了一份投资文件,在这个文件的顶部有一个紫色的方框,里面写着OpenAI的首要责任是履行自身的使命。

这意味着,如果出现该使命与其他利益发生冲突的情况,投资者有可能损失所有的投资。由此证明,微软和其他投资者都同意将OpenAI的使命置于首位。

4

专业化训练 vs 通用训练

Ravi Belani:在特定领域,比如法律或医学,使用专业的数据集进行训练能够获得更好性能,还是使用所有可用数据进行通用训练更加有益?

Ilya Sutskever: 在某些情况下,专业化训练肯定能发挥巨大作用。我们进行通用化训练的原因仅仅是为了让神经网络能够理解我们所提出的问题。只有当它具有非常强大的理解能力时,我们才能进行专业化训练,并真正从中受益。所以,这两种训练方向都有前景。

Ravi Belani:什么时候会达到需要重点进行专业化训练的阶段?

Ilya Sutskever: 在开源领域,人们已经开始进行专业化训练,因为他们使用的模型性能较弱,所以要尽可能地提升模型的性能。所以,需要专业化训练的阶段已经到来,不过这种趋势是循序渐进的,而不是绝对的选择。

我们可以将AI看成是由多个元素组成的集合,每个元素都能对其性能作出贡献。在特定任务中,专业数据集可以使AI表现得更好;从所有任务角度出发,性能更强的基础模型无疑也更有用。所以答案就是:我们不必非要二选一,也可以将两者结合起来。

5

OpenAI与深度学习的未来

Ravi Belani:OpenAI的重要发展指标是什么?衡量公司发展状况的KPI(关键绩效指标)有哪些?

Ilya Sutskever: 对于KPI,这也是一个见仁见智的问题,每人衡量OpenAI是否成功的标准可能都有所不同,不过技术进步无疑是指标之一。但简单来说,针对重要问题,我们主要有以下KPI:

我们的研究做得如何?能否很好地了解自己的系统?有没有能力将其训练得更好?能否很好对其进行控制?研究计划执行得怎样?安全计划施行得好吗?我们对此的满意程度如何?这些问题都是衡量技术发展的重要KPI。虽然我们的产品本身也很酷,但核心技术和对技术的控制与引导才是OpenAI的重心所在

Ravi Belani:即使在科研界,人们也很想获取OpenAI在技术方面的资料,包括模型的性能、规格及其训练方式的详细信息,同时希望能不受限制地与模型互动、访问训练参数。你们是否准备将其开放给研究人员或其他初创企业,以鼓励竞争和创新?

Ilya Sutskever: 我认为,可以采取一些折中的方法。神经网络的行为空间非常广阔且复杂,所以模型访问(model access)及其各种组合可能非常有生产力。如果研究者在学术方面遇到问题,我们可以提供各种形式的模型访问,这也是许多学术研究实验室采用的方法。

Ravi Belani:有没有不为他人所知但你个人非常喜欢的ChatGPT功能或用例吗?

Ilya Sutskever: 我个人非常喜欢它的作诗能力,但不能确定别人是否知道这个功能。它可以作诗、唱rap,非常有意思。

Ravi Belani:你们团队工作也会使用ChatGPT吗?当AI深度融合到人类团队中时,你们的工作动态会发生怎样的变化?这种融合会不会带来什么外界不知道但将会出现的情况?

Ilya Sutskever: ChatGPT提升了每个人的工作效率。我不能说对团队的工作动态有翻天覆地的影响,但确实有所变化。

Ravi Belani:Sam Altman曾表示,我们可能无法继续通过扩大语言模型规模获得进一步发展。你是否同意该观点?如果赞同,你们关注的下一个创新点是什么?

Ilya Sutskever: 我不太清楚他具体谈了些什么,可能他的意思类似于“易于扩展的时代已经结束”。神经网络当然是越大越好,但构建神经网络需要很大精力和成本。

我认为,深度学习中有很多不同的前沿领域可供探索,而识别出这样的前沿领域也是为深度学习做贡献的一种方式。也许,在某个被他人所忽视的前沿领域中就会产出非常重要的成果。

Ravi Belani:你如何看待深度学习在未来五到十年的发展?

Ilya Sutskever: 我预计,深度学习将得到进一步发展。在过去的一段时间里,大规模扩展带来了巨大进步,这在GPT-1到GPT-3的迭代中表现得尤为明显,但将来这种情况会有所改变。

规模化之所以能取得如此迅猛的进展,是因为此前有许多闲置的数据中心资源,可以通过重新分配这些资源实现快速进展。但今后的情况将会有所不同,一方面,建设数据中心需要时间,另一方面,模型训练所需的计算规模和资源变得非常庞大,通过规模化来取得成果不会像以前那么快。

Si tiene que predecir, creo que se pueden descubrir y utilizar algunas propiedades nuevas del aprendizaje profundo que aún no se conocen. Creo firmemente que dentro de cinco a diez años tendremos sistemas mucho más avanzados que los que tenemos actualmente. Se desconoce cómo evolucionará, ya que puede haber una pequeña cantidad de avances importantes en el futuro, además de muchas pequeñas mejoras, todas de los cuales se integrarán en un sistema En un sistema de ingeniería enorme y complejo.

Ravi Belani: Durante este período, ¿OpenAI está posicionado para ser una plataforma o un proveedor de servicios que las personas buscan activamente como Google? ¿O será parte de la infraestructura de back-end que impulsa otras aplicaciones?

Ilya Sutskever: Las cosas se están desarrollando y cambiando demasiado rápido, y estas tecnologías aún son muy nuevas. Tal vez las dos formas que mencionó sean posibles, y los detalles aún están por verse.

6

consejos para estudiantes

Ravi Belani: Si fueras un estudiante de Stanford interesado en la IA y quisieras ser como tú, ¿en qué concentrarías tu tiempo y energía? ¿Qué harías si también te interesara el emprendimiento?

Ilya Sutskever: En primer lugar, en general, independientemente de la dirección que elija, siempre es una buena idea incorporar sus propias tendencias, habilidades o talentos únicos.

En segundo lugar, cuando se trata de investigación de IA, explore sus propias inspiraciones. Pregúntese si hay algo que es obvio para usted que otras personas no. Si es así, continúe en esta dirección para ver si su intuición es correcta. Si bien a veces puede estar mal, mi mentor Geoffrey Hinton dijo una vez ( mp.weixin.qq.com/s/kRdlK3VEq… : Debes confiar en tus instintos, porque si son correctos, lograrás un gran éxito; incluso Inexacto, y no hay nada que puedas hacer al respecto.

Finalmente, inicie un negocio. Una perspectiva personal única es más valiosa al iniciar un negocio que un campo de investigación, porque necesita inspirarse en sus propias experiencias de vida únicas. Puede descubrir muchas posibilidades, pero debe concentrarse en una dirección entre las amplias opciones y tomar medidas para trabajar duro por ello.

Bienvenido a Star, pruebe la última versión de OneFlow:

github.com/Oneflow-Inc…

Acho que você gosta

Origin juejin.im/post/7243342597002543161
Recomendado
Clasificación