"多模态模型可能是大模型的终局" | 涛滔不绝

【CSDN 编者按】这一年，大模型热潮迭起，1000天以后，5000天以后我们将面对什么，大模型会将人类带向何处？

对话嘉宾：

蒋涛，CSDN 创始人&董事长，中国开源软件推进联盟副主席。曾领导开发了巨人手写电脑、金山词霸和超级解霸。1999 年创办 CSDN。CSDN 是中国专业开发者社区平台，全球开发者社区网站排名第二，目前注册会员超过 4700 万，覆盖全球 95 %中文开发者群体。在开源开放的新时代，CSDN 致力于打造开发者工具生产力入口，共建中国十万亿技术大生态。

颜水成，现任昆仑万维天工智能联席 CEO 和 2050 全球研究院院长，是一位在计算机视觉和机器学习领域享有国际声誉的专家，曾任 360 集团人工智能研究院院长、首席科学家，依图科技首席技术官，并曾在 Sea 集团担任首席科学家；他是新加坡工程院院士、AAAI Fellow、ACM Fellow、IEEE Fellow、IAPR Fellow 等多个国际学术组织的成员。颜水成的研究领域包括计算机视觉、机器学习、深度学习等，在顶级国际学术期刊和会议上发表的论文引用量超过 90,000 次， H-index 超过 140，八次被评为年度全球“高被引科学家”。

作者 | 何苗

出品 | CSDN（ID：CSDNnews）

计算机视觉、机器学习领域国际顶级专家颜水成在学术界钻研 8 年、工业界实践 8 年，今年 9 月正式宣布加入昆仑万维，出任天工智能联席 CEO，并兼任昆仑万维 2050 全球研究院院长。

长期以来，业界的目光聚集于他，为什么是昆仑万维？对人工智能领域而言意味着什么？在大模型火热发展的当下，他试图以 Foundation Models（基座大模型）为基准点，探寻通往通用人工智能领域的道路。

自昆仑万维的天工大模型在今年 4 月正式发布并启动邀请测试以来，一直以较快的节奏发布更新，也始终在百模大战中保持着一定的竞争力。11 月，「天工」大模型通过《生成式人工智能服务管理暂行办法》备案，面向全社会开放服务。紧接着，昆仑万维正式开源了「天工 Skywork-13B 系列」。13B，在颜水成看来是最适合商用的尺寸，未来将迸发出多大能量？他一直追求学术界和工业界的 Double Satisfactions，产学研的有机结合能否在 Foundation Models 领域结出硕果？令人期待~

本期《涛滔不绝》，CSDN 创始人&董事长、中国开源软件推进联盟副主席蒋涛与天工智能联席 CEO、兼任昆仑万维 2050 全球研究院院长颜水成，从 AGI 的本质谈到基座大模型的重要性，从基座大模型到“更高一层”的 Agent 智能体，带领我们探寻 AI 发展更高维度的世界。

AGI 未来会是所有数字系统的底座

蒋涛：当前国内外有各种开源大模型扎堆涌现，中国也面临着百模大战，昆仑万维在今年 11 月正式开源「天工 Skywork-13B 系列」，为什么那么多企业要做基座大模型？

颜水成：业界探索基座大模型的核心可能认为它是未来 AGI 的核心。未来 AI 的能力都会由基座大模型产生。

AGI 是人工智能领域的一个最重要的方向，它的目标是实现通用的人工智能。而基座大模型正是这个目标的关键所在。通过构建一个通用的知识平台，我们可以将人工智能的能力扩展到更多的领域，实现更广泛的应用。当然你也可以围绕大模型去做周边应用，或者垂直的场景，但如果真的打算拥抱 AGI，就必须真正触及基座大模型。另一方面，无论是大、小公司，也都希望在 AGI 最核心的部分展现自己的实力。

蒋涛：AGI 未来会是所有数字系统的底座，或者是新一代操作系统吗？

颜水成：可以这样理解。AGI 很有可能成为新一代的操作系统，但这个过程需要时间。AGI 的目标是实现通用的人工智能，它需要整合各种技术和资源，包括计算机视觉、自然语言处理、语音识别等领域。只有当 AGI 能够实现这些技术的无缝集成和协同工作时，它才能成为新一代的操作系统。

在深度学习那一代通常涉及一个垂直领域，我们可以利用垂直领域的数据进行分析。现在趋势不同了，我们可能首先要构建一个基座大模型。在文本领域和其他领域，基础模型已经包含了通用知识。这样在前往另一个领域时，不再仅依赖该领域的知识，而是将基座模型的能力迁移到垂直领域即可。

蒋涛：想要加入 AGI 领域的年轻人需要具备哪些能力？

颜水成：首先要具备扎实的计算机科学和数学基础。此外，他们还需要具备创新思维和敏锐的洞察力，以便在 AGI 领域的研究和应用中取得突破。同时，他们还需要具备勇于探索和挑战的精神，积极面对新技术和新领域带来的挑战和机遇。

“我们仍未到达基座大模型的临界点”

蒋涛：能详细谈谈什么是基座大模型吗？为什么它在中国如此重要？

颜水成：基座大模型是构建在通用知识上的大型语言模型。它的核心理念是利用人类的通识知识，通过不断地学习和训练，实现更广泛的应用。在中国百模大战的局面下，建立基座大模型的重要性就显而易见了。

蒋涛：你认为我们需要多少个基座大模型？

颜水成：早期，大家可能认为一个基座大模型就可以应用于不同场景，但实际上仍存在一些问题。你会发现，如果将所有场景和知识都用一个基座大模型来操作，推理成本会非常高，用户需要支付的费用也会很高。在当前场景下，相对现实的情况是，让基座大模型体量偏向中型或小型。在一个垂直领域里，利用数据进行 fine tuning，然后获取垂域里的数据，训练得到一个相对较小的模型。可以在保证模型效果不错的情况下，大幅降低推理成本，商业应用也做得更好。4B、5B 属于中型，70B 和 100B 算是中大型了，在 13B 的模型很多场景下，推理成本会更容易接受。

蒋涛：不同参数量的模型能力存在差距，千亿参数的模型明显出现了质变，涌现能力出现了。国内外都在努力拼数据量，参数不断提升的同时，能力一定随之提升吗？

颜水成：在中国，我们还没有达到数据和模型大小的稳态，在数据不断增加、算力和资源不断提升以及模型大小不断提升的情况下，模型最终展现的综合能力仍在不断提升，也就是说中国还没有达到临界点。到达临界点以后意味着，即便再增加资源进去，模型的能力也不会再增加。也许一两年内我们都无法达到这个临界点。

蒋涛：大模型下一步的发展方向是？

颜水成：从大模型向多模态模型迁移是一大趋势。在迁移时，通常会将图像或声音 Token 化，之后将其串联起来形成一个长序列，它代表了原始图像或声音的数字化表示。业界期待大部分问题未来可以通过 Token generation 的形式解决，文本是一个起点，多模态模型可能是大模型的最终结局。

国内企业与 OpenAI 的差距，不止是 500 块 GPU

蒋涛：你有很多跨国经历，可以谈谈当前国内大模型与 LLaMA 2 等开源模型相比，差距在哪里吗？

颜水成：在几个月前，你可能会感觉到还有较大差距。但近几个月，你会发现国内陆续发布的模型在能力维度上已经有所提升，展现出可以与之抗衡的实力。我认为到年底，可能会有好几个公司推出新的模型，其性能将与之持平。

OpenAI 的首席科学家曾表示，大模型的性能都是由各种小的 trick 逐步堆积起来的，数据量、数据质量和数据配比是非常重要的。另一个方面是训练系统，效率非常重要，包括硬件和软件两个维度。硬件可能有性能天花板，而软件如果配置和操作优化都比较好，是能够发挥出硬件的极限能力的。还有很多各具特色的优化器可以结合起来，提升性能。

蒋涛：所以对国内来说，追平只是时间和迭代的问题吗？

颜水成：当前业界的共识，要追赶到 GPT-3.5 水平，中国还是有很大可能性的，剩下的只是时间问题，需要不断趟坑、做实验，逐渐了解通往 GPT-3.5 的路线。但要实现这个目标的周期可能会比 OpenAI 用时更长。毕竟在中国，无论是哪家公司，在人才密度上与 OpenAI 相比差距都非常大。同时，OpenAI 的算力资源也要高出一个量级，据说平均每个人有 500 块 GPU 资源可以进行各种实验。在中国，当前大部分公司可能几个人共有 500 块 GPU 资源。

蒋涛：这里的人才密度是指 AI 研究工程师还是 infrastructure 工程师？如果人才数量固定，那么配套的资源和方向更为关键吗？

颜水成：要想把人“练出来”必须要投入。就像训练飞行员一样，需要投入足量资源。一方面，由于资金和设备有限，我们训练出真正强的人才数量非常少。另一方面，我们现在面临的是外部竞争，团队过多且分散。如果卡能集中，说不定效果会更好一点。

蒋涛：国内有可能在多模态阶段与美国同步吗？

颜水成：我个人认为在多模态的方法论上，亚洲不算落后，但从单模态向多模态发展时，最大的问题还在数据方面。要想获取多模态数据，中国目前在质量上会落后不少。另外，当单模态向多模态转变，处理视频时实际所需的算力资源会成倍增加。本来我们在算力资源方面还存在距离。

中文语料的质量与英文预料还是有差距。一方面是因为在互联网上发布文本或信息的特点，中国与美国有所不同，我们需要对这些数据进行清洗。另一方面，在视频领域，优质的视频生产量、用户和交互量都与美国有差距。这也导致我们面临较大挑战。

关于昆仑万维：迈过人工智能的奇点

蒋涛：昆仑万维从 2020 年开始布局 AIGC 和大模型领域，其创始人周亚辉是如何看待大模型问题？你为何在今年选择加入其中？

颜水成：在学术界钻研 8 年，工业界实践了 8 年后，我选择来到昆仑万维展开通用人工智能的研究，同时建立 2050 全球研究院，在新加坡、英国剑桥以及硅谷建立相应分院。原因有几个方面。

我认为昆仑万维创始人的前瞻性非常好。昆仑万维在最初探索大模型时，大约在 2020 年，即 GPT-3 刚出炉时，其惊人的效果让几位创始人感受到 AI 新时代即将到来，应该向此前进。这也导致昆仑万维一大优势在许多重要方向刚刚萌芽时，创始人已经提前布局。

它的另一个特点是现有业务中 80%多的收入来自海外，包括 Opera、游戏以及一些娱乐类产品，在全球范围内，如东南亚、非洲地区也发展得非常好。

我决定加入还有一个重要原因，在中国香港、美国和新加坡等地方都待过的我，很喜欢具有全球化背景的企业，带来很多新机会的同时，也能让 AGI 技术在不同国家发挥其优势。

蒋涛：创立 2050 全球研究院的目的是什么？

颜水成：昆仑万维创始人周亚辉曾提到，有一本书中预测，人工智能的奇点可能是 2049 年。我们将研究院命名为 2050，意味着期待团队走在通往通用人工智能的正确道路上，并且能够迈过那个奇点。我们要跨过通用人工智能到来的那一天。

蒋涛：今年被称为 AGI 元年，你怎么看？昆仑万维是如何布局的？

颜水成：在我看来，AGI 的真正表现形式是 Agent, 是一个智能体。智能体可以利用大模型、真实的人、其他智能体以及从虚拟世界中获取的各种工具，完成人类下达的任何一个任务。现在的大模型实际上是大脑知识库的压缩，而 Agent 相当于一个与人对等的实体。在我看来，Agent 比基座大模型要更高一层。非常重要的一点是：Agent 需要具备自我演化能力，这意味着，Agent 可以借助与所处环境的交互进一步提升自己的智能。

2050 研究院的创始人希望公司坚持长期主义。在新加坡、英国伦敦以及美国硅谷三个不同的地方设立了研究院，伦敦实行完全的长期主义，主要做前沿研究，对当前业务没有直接作用，但有助于投资和未来布局。在新加坡和硅谷，更偏向于 AGI 研究。关注两个维度，一个维度是基座大模型 2.0，另一个维度是 Agent。

基座大模型 2.0 也分为三个方向：下一代的基座大模型的结构及其应用；推理和训练效率提升；大模型理论问题，针对可解释性等相关方向进行研究。

而 Agent 我们将其分为两个部分：一个是虚拟世界的 Agent，即将业务或场景数字化后，在数字世界中的存在的 Agent。另一个是物理世界的 Agent，它需要与移动设备打通，利用移动设备上的多模态信息如视觉、听觉和触觉等，然后根据指令调用特定模型，决定下一步应该做什么事情。

这两条线会同时向前推进。我们希望研究、研发和产品三者能够实现一致性。

蒋涛：昆仑万维有哪些地方应用了 AIGC？

颜水成：我们的 AI 业务线分为六条线，天工大模型、AI 搜索、AI 游戏、AI 音乐、AI 动漫、AI 社交。这六条线都是以新的产品向前推进，大部分产品都处于可以内测的状态。

我非常兴奋的一点是，昆仑万维不仅专注于做模型，还推出新产品来牵引研发和研究向前发展，现在的问题是产研是否能打通。

追求学术界与工业界的双重满足

蒋涛：在 AI 领域，尤其需要学者的共同努力。在学术研究与实际工程化之间，如何实现有机结合？

颜水成：我一直追求在学术界和工业界的双重满足，尽管客观上较难，但在我的学生中，确实有很多人做得非常好。

我认为学者与工程师还是有一些分工比较好，让学者集中于“从 0 到 1”的工作，而工程师专注于“1 到 100”的工作。因为学者倾向于长期探索，创造一种可能性，工程师则更希望短期内能快速落地，需要将工匠精神发挥到极致。一个团队里这两种人都不可或缺，聚集在一起才能确保研究进度和完备性。

蒋涛：在大模型团队里怎样的配比更好？

颜水成：在大模型团队里，工程能力可能更重要，学者与工程师的配比至少是 1：3。业界认为大模型已经逐渐成为一种工程问题，想实现 GPT-3.5，我也认为工程问题非常关键。

技术的发展正在超越想象力的边界

蒋涛：在多模态取得突破后，Agent 是否会有较大进展？

颜水成：进展会非常大，在接下来的三年里，Virtual Agent 可能会占主流，主要原因是需要的多模态数据是有基础的。如果是研究 physical Agent，就需要与物理世界相互作用，但是出于安全性顾虑，获取大量数据的可能性会相对小很多。尽管 Simulation to Real 可以解决将模拟环境中的算法迁移到真实世界中的问题，但这需要更长的时间。距离 Physical Agent 真正大规模到来应该还需 10 年，才能初见端倪。

Agent 在技术路线上并非遥不可及。我经常举个例子，大约在 7 年前，有个学生告诉我，他想做一个项目：输入文本直接产生图像。当时我训了他一顿，认为这是 impossible mission。但现在，文生图的问题基本上已经解决了。从未来的 7 年来看，我们有足够长的时间来产生一代技术的变革。

颜水成：如果全面考虑生活的各个维度，未来你最想要让 AGI 为你提供哪些功能？

蒋涛：我需要一个机器人扩展自己的能力边界。可以通过 Agent 办很多事，所有事情变得越来越智能。从前看科幻小说，经常会想象有个小精灵在旁边随时帮助我，那是我最想要的。

蒋涛：未来的 1000 天会如何？以及 5000 天后会如何？

颜水成：如果是 1000 天，可能 Virtual Agent 已经开始大行其道，而 5000 天，可能是 Physical Agent 已经开始步入我们的视野了。

未来，在电脑和手机上，它们能帮你非常智能地完成各种任务。带上苹果公司的 vision PRO，迅速完成各种事情，在 1000 天的时间尺度上，我认为值得期待。如果是 5000 天， Physical Agent 可能已经到了一个相对可用的时代，即已经有一些可以服务人的成熟产品。

推荐阅读：

"多模态模型可能是大模型的终局" | 涛滔不绝

猜你喜欢