"多模态模型可能是大模型的终局" | 涛滔不绝

bd1603344d596bddc208f80d28ffae09.gif

【CSDN 编者按】这一年,大模型热潮迭起,1000天以后,5000天以后我们将面对什么,大模型会将人类带向何处?

对话嘉宾:

蒋涛,CSDN 创始人&董事长,中国开源软件推进联盟副主席。曾领导开发了巨人手写电脑、金山词霸和超级解霸。1999 年创办 CSDN。CSDN 是中国专业开发者社区平台,全球开发者社区网站排名第二,目前注册会员超过 4700 万,覆盖全球 95 %中文开发者群体。在开源开放的新时代,CSDN 致力于打造开发者工具生产力入口,共建中国十万亿技术大生态。

颜水成,现任昆仑万维天工智能联席 CEO 和 2050 全球研究院院长,是一位在计算机视觉和机器学习领域享有国际声誉的专家,曾任 360 集团人工智能研究院院长、首席科学家,依图科技首席技术官,并曾在 Sea 集团担任首席科学家;他是新加坡工程院院士、AAAI Fellow、ACM Fellow、IEEE Fellow、IAPR Fellow 等多个国际学术组织的成员。颜水成的研究领域包括计算机视觉、机器学习、深度学习等,在顶级国际学术期刊和会议上发表的论文引用量超过 90,000 次, H-index 超过 140,八次被评为年度全球“高被引科学家”。

作者 | 何苗       

出品 | CSDN(ID:CSDNnews)

计算机视觉、机器学习领域国际顶级专家颜水成在学术界钻研 8 年、工业界实践 8 年,今年 9 月正式宣布加入昆仑万维,出任天工智能联席 CEO,并兼任昆仑万维 2050 全球研究院院长。 

长期以来,业界的目光聚集于他,为什么是昆仑万维?对人工智能领域而言意味着什么?在大模型火热发展的当下,他试图以 Foundation Models(基座大模型)为基准点,探寻通往通用人工智能领域的道路。 

自昆仑万维的天工大模型在今年 4 月正式发布并启动邀请测试以来,一直以较快的节奏发布更新,也始终在百模大战中保持着一定的竞争力。11 月,「天工」大模型通过《生成式人工智能服务管理暂行办法》备案,面向全社会开放服务。紧接着,昆仑万维正式开源了「天工 Skywork-13B 系列」。13B,在颜水成看来是最适合商用的尺寸,未来将迸发出多大能量?他一直追求学术界和工业界的 Double Satisfactions,产学研的有机结合能否在 Foundation Models 领域结出硕果?令人期待~ 

本期《涛滔不绝》,CSDN 创始人&董事长、中国开源软件推进联盟副主席蒋涛与天工智能联席 CEO、兼任昆仑万维 2050 全球研究院院长颜水成,从 AGI 的本质谈到基座大模型的重要性,从基座大模型到“更高一层”的 Agent 智能体,带领我们探寻 AI 发展更高维度的世界。 

fc85b8ced44c1e88f340755915ccec9b.png

AGI 未来会是所有数字系统的底座 

蒋涛:当前国内外有各种开源大模型扎堆涌现,中国也面临着百模大战,昆仑万维在今年 11 月正式开源「天工 Skywork-13B 系列」,为什么那么多企业要做基座大模型? 

颜水成:业界探索基座大模型的核心可能认为它是未来 AGI 的核心。未来 AI 的能力都会由基座大模型产生。

AGI 是人工智能领域的一个最重要的方向,它的目标是实现通用的人工智能。而基座大模型正是这个目标的关键所在。通过构建一个通用的知识平台,我们可以将人工智能的能力扩展到更多的领域,实现更广泛的应用。当然你也可以围绕大模型去做周边应用,或者垂直的场景,但如果真的打算拥抱 AGI,就必须真正触及基座大模型。另一方面,无论是大、小公司,也都希望在 AGI 最核心的部分展现自己的实力。 

蒋涛:AGI 未来会是所有数字系统的底座,或者是新一代操作系统吗? 

颜水成:可以这样理解。AGI 很有可能成为新一代的操作系统,但这个过程需要时间。AGI 的目标是实现通用的人工智能,它需要整合各种技术和资源,包括计算机视觉、自然语言处理、语音识别等领域。只有当 AGI 能够实现这些技术的无缝集成和协同工作时,它才能成为新一代的操作系统。 

在深度学习那一代通常涉及一个垂直领域,我们可以利用垂直领域的数据进行分析。现在趋势不同了,我们可能首先要构建一个基座大模型。在文本领域和其他领域,基础模型已经包含了通用知识。这样在前往另一个领域时,不再仅依赖该领域的知识,而是将基座模型的能力迁移到垂直领域即可。 

蒋涛:想要加入 AGI 领域的年轻人需要具备哪些能力? 

颜水成:首先要具备扎实的计算机科学和数学基础。此外,他们还需要具备创新思维和敏锐的洞察力,以便在 AGI 领域的研究和应用中取得突破。同时,他们还需要具备勇于探索和挑战的精神,积极面对新技术和新领域带来的挑战和机遇。 

e35ec0ad98e16e0be1b449e8f6ac1628.png

“我们仍未到达基座大模型的临界点” 

蒋涛:能详细谈谈什么是基座大模型吗?为什么它在中国如此重要? 

颜水成:基座大模型是构建在通用知识上的大型语言模型。它的核心理念是利用人类的通识知识,通过不断地学习和训练,实现更广泛的应用。在中国百模大战的局面下,建立基座大模型的重要性就显而易见了。 

蒋涛:你认为我们需要多少个基座大模型? 

颜水成:早期,大家可能认为一个基座大模型就可以应用于不同场景,但实际上仍存在一些问题。你会发现,如果将所有场景和知识都用一个基座大模型来操作,推理成本会非常高,用户需要支付的费用也会很高。在当前场景下,相对现实的情况是,让基座大模型体量偏向中型或小型。在一个垂直领域里,利用数据进行 fine tuning,然后获取垂域里的数据,训练得到一个相对较小的模型。可以在保证模型效果不错的情况下,大幅降低推理成本,商业应用也做得更好。4B、5B 属于中型,70B 和 100B 算是中大型了,在 13B 的模型很多场景下,推理成本会更容易接受。 

蒋涛:不同参数量的模型能力存在差距,千亿参数的模型明显出现了质变,涌现能力出现了。国内外都在努力拼数据量,参数不断提升的同时,能力一定随之提升吗? 

颜水成:在中国,我们还没有达到数据和模型大小的稳态,在数据不断增加、算力和资源不断提升以及模型大小不断提升的情况下,模型最终展现的综合能力仍在不断提升,也就是说中国还没有达到临界点。到达临界点以后意味着,即便再增加资源进去,模型的能力也不会再增加。也许一两年内我们都无法达到这个临界点。 

蒋涛:大模型下一步的发展方向是? 

颜水成:从大模型向多模态模型迁移是一大趋势。在迁移时,通常会将图像或声音 Token 化,之后将其串联起来形成一个长序列,它代表了原始图像或声音的数字化表示。业界期待大部分问题未来可以通过 Token generation 的形式解决,文本是一个起点,多模态模型可能是大模型的最终结局。 

ab4ccb6dfd288af0a01b438f9383e0ff.png

国内企业与 OpenAI 的差距,不止是 500 块 GPU 

蒋涛:你有很多跨国经历,可以谈谈当前国内大模型与 LLaMA 2 等开源模型相比,差距在哪里吗? 

颜水成:在几个月前,你可能会感觉到还有较大差距。但近几个月,你会发现国内陆续发布的模型在能力维度上已经有所提升,展现出可以与之抗衡的实力。我认为到年底,可能会有好几个公司推出新的模型,其性能将与之持平。 

OpenAI 的首席科学家曾表示,大模型的性能都是由各种小的 trick 逐步堆积起来的,数据量、数据质量和数据配比是非常重要的。另一个方面是训练系统,效率非常重要,包括硬件和软件两个维度。硬件可能有性能天花板,而软件如果配置和操作优化都比较好,是能够发挥出硬件的极限能力的。还有很多各具特色的优化器可以结合起来,提升性能。 

蒋涛:所以对国内来说,追平只是时间和迭代的问题吗? 

颜水成:当前业界的共识,要追赶到 GPT-3.5 水平,中国还是有很大可能性的,剩下的只是时间问题,需要不断趟坑、做实验,逐渐了解通往 GPT-3.5 的路线。但要实现这个目标的周期可能会比 OpenAI 用时更长。毕竟在中国,无论是哪家公司,在人才密度上与 OpenAI 相比差距都非常大。同时,OpenAI 的算力资源也要高出一个量级,据说平均每个人有 500 块 GPU 资源可以进行各种实验。在中国,当前大部分公司可能几个人共有 500 块 GPU 资源。 

蒋涛:这里的人才密度是指 AI 研究工程师还是 infrastructure 工程师?如果人才数量固定,那么配套的资源和方向更为关键吗? 

颜水成:要想把人“练出来”必须要投入。就像训练飞行员一样,需要投入足量资源。一方面,由于资金和设备有限,我们训练出真正强的人才数量非常少。另一方面,我们现在面临的是外部竞争,团队过多且分散。如果卡能集中,说不定效果会更好一点。

蒋涛:国内有可能在多模态阶段与美国同步吗?

颜水成:我个人认为在多模态的方法论上,亚洲不算落后,但从单模态向多模态发展时,最大的问题还在数据方面。要想获取多模态数据,中国目前在质量上会落后不少。另外,当单模态向多模态转变,处理视频时实际所需的算力资源会成倍增加。本来我们在算力资源方面还存在距离。

中文语料的质量与英文预料还是有差距。一方面是因为在互联网上发布文本或信息的特点,中国与美国有所不同,我们需要对这些数据进行清洗。另一方面,在视频领域,优质的视频生产量、用户和交互量都与美国有差距。这也导致我们面临较大挑战。 

713208c47d027f798d2c769be738fd14.png

关于昆仑万维:迈过人工智能的奇点 

蒋涛:昆仑万维从 2020 年开始布局 AIGC 和大模型领域,其创始人周亚辉是如何看待大模型问题?你为何在今年选择加入其中?

颜水成:在学术界钻研 8 年,工业界实践了 8 年后,我选择来到昆仑万维展开通用人工智能的研究,同时建立 2050 全球研究院,在新加坡、英国剑桥以及硅谷建立相应分院。原因有几个方面。

我认为昆仑万维创始人的前瞻性非常好。昆仑万维在最初探索大模型时,大约在 2020 年,即 GPT-3 刚出炉时,其惊人的效果让几位创始人感受到 AI 新时代即将到来,应该向此前进。这也导致昆仑万维一大优势在许多重要方向刚刚萌芽时,创始人已经提前布局。 

它的另一个特点是现有业务中 80%多的收入来自海外,包括 Opera、游戏以及一些娱乐类产品,在全球范围内,如东南亚、非洲地区也发展得非常好。

我决定加入还有一个重要原因,在中国香港、美国和新加坡等地方都待过的我,很喜欢具有全球化背景的企业,带来很多新机会的同时,也能让 AGI 技术在不同国家发挥其优势。 

蒋涛:创立 2050 全球研究院的目的是什么? 

颜水成:昆仑万维创始人周亚辉曾提到,有一本书中预测,人工智能的奇点可能是 2049 年。我们将研究院命名为 2050,意味着期待团队走在通往通用人工智能的正确道路上,并且能够迈过那个奇点。我们要跨过通用人工智能到来的那一天。 

蒋涛:今年被称为 AGI 元年,你怎么看?昆仑万维是如何布局的? 

颜水成:在我看来,AGI 的真正表现形式是 Agent, 是一个智能体。智能体可以利用大模型、真实的人、其他智能体以及从虚拟世界中获取的各种工具,完成人类下达的任何一个任务。现在的大模型实际上是大脑知识库的压缩,而 Agent 相当于一个与人对等的实体。在我看来,Agent 比基座大模型要更高一层。非常重要的一点是:Agent 需要具备自我演化能力,这意味着,Agent 可以借助与所处环境的交互进一步提升自己的智能。 

2050 研究院的创始人希望公司坚持长期主义。在新加坡、英国伦敦以及美国硅谷三个不同的地方设立了研究院,伦敦实行完全的长期主义,主要做前沿研究,对当前业务没有直接作用,但有助于投资和未来布局。在新加坡和硅谷,更偏向于 AGI 研究。关注两个维度,一个维度是基座大模型 2.0,另一个维度是 Agent。 

基座大模型 2.0 也分为三个方向:下一代的基座大模型的结构及其应用;推理和训练效率提升;大模型理论问题,针对可解释性等相关方向进行研究。 

而 Agent 我们将其分为两个部分:一个是虚拟世界的 Agent,即将业务或场景数字化后,在数字世界中的存在的 Agent。另一个是物理世界的 Agent,它需要与移动设备打通,利用移动设备上的多模态信息如视觉、听觉和触觉等,然后根据指令调用特定模型,决定下一步应该做什么事情。

这两条线会同时向前推进。我们希望研究、研发和产品三者能够实现一致性。 

蒋涛:昆仑万维有哪些地方应用了 AIGC? 

颜水成:我们的 AI 业务线分为六条线,天工大模型、AI 搜索、AI 游戏、AI 音乐、AI 动漫、AI 社交。这六条线都是以新的产品向前推进,大部分产品都处于可以内测的状态。 

我非常兴奋的一点是,昆仑万维不仅专注于做模型,还推出新产品来牵引研发和研究向前发展,现在的问题是产研是否能打通。 

9a7b20fac947a615bf626a180a33e4dc.png

追求学术界与工业界的双重满足 

蒋涛:在 AI 领域,尤其需要学者的共同努力。在学术研究与实际工程化之间,如何实现有机结合? 

颜水成:我一直追求在学术界和工业界的双重满足,尽管客观上较难,但在我的学生中,确实有很多人做得非常好。 

我认为学者与工程师还是有一些分工比较好,让学者集中于“从 0 到 1”的工作,而工程师专注于“1 到 100”的工作。因为学者倾向于长期探索,创造一种可能性,工程师则更希望短期内能快速落地,需要将工匠精神发挥到极致。一个团队里这两种人都不可或缺,聚集在一起才能确保研究进度和完备性。 

蒋涛:在大模型团队里怎样的配比更好? 

颜水成:在大模型团队里,工程能力可能更重要,学者与工程师的配比至少是 1:3。业界认为大模型已经逐渐成为一种工程问题,想实现 GPT-3.5,我也认为工程问题非常关键。

7524327fed144e9c948d29f110f0892a.png

技术的发展正在超越想象力的边界 

蒋涛:在多模态取得突破后,Agent 是否会有较大进展? 

颜水成:进展会非常大,在接下来的三年里,Virtual Agent 可能会占主流,主要原因是需要的多模态数据是有基础的。如果是研究 physical Agent,就需要与物理世界相互作用,但是出于安全性顾虑,获取大量数据的可能性会相对小很多。尽管 Simulation to Real 可以解决将模拟环境中的算法迁移到真实世界中的问题,但这需要更长的时间。距离 Physical Agent 真正大规模到来应该还需 10 年,才能初见端倪。 

Agent 在技术路线上并非遥不可及。我经常举个例子,大约在 7 年前,有个学生告诉我,他想做一个项目:输入文本直接产生图像。当时我训了他一顿,认为这是 impossible mission。但现在,文生图的问题基本上已经解决了。从未来的 7 年来看,我们有足够长的时间来产生一代技术的变革。

颜水成:如果全面考虑生活的各个维度,未来你最想要让 AGI 为你提供哪些功能? 

蒋涛:我需要一个机器人扩展自己的能力边界。可以通过 Agent 办很多事,所有事情变得越来越智能。从前看科幻小说,经常会想象有个小精灵在旁边随时帮助我,那是我最想要的。 

蒋涛:未来的 1000 天会如何?以及 5000 天后会如何?

颜水成:如果是 1000 天,可能 Virtual Agent 已经开始大行其道,而 5000 天,可能是 Physical Agent 已经开始步入我们的视野了。

未来,在电脑和手机上,它们能帮你非常智能地完成各种任务。带上苹果公司的 vision PRO,迅速完成各种事情,在 1000 天的时间尺度上,我认为值得期待。如果是 5000 天, Physical Agent 可能已经到了一个相对可用的时代,即已经有一些可以服务人的成熟产品。

推荐阅读:

4c5be67fcbbd7417330618a4ebf46045.jpeg

猜你喜欢

转载自blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/135027220