Google DeepMind掌舵人Demis Hassabis专访：合并后「超级单元」内幕，以及如何开展下一代模型研究

Demis Hassabis：毕业于伦敦大学学院，DeepMind创始人。游戏开发者、神经学家和人工智能企业家，AlphaGo的创造者，帮助Google展开一场全新的人工智能革命。

DeepMind + Google Brain = 科学 + 工程

N 指代 Nilay Patel，Verge主编

D 指代 Demis Hassabis，Google DeepMind CEO

N：Google DeepMind 是Google的一个新部门，由Google的两个顶级团队组成（由 Jeff Dean 领导的 Google Brain 和 2014 年收购的 DeepMind）。为什么 DeepMind 和 Google Brain 最初是分开的呢？

D：2010 年，我们创办了 DeepMind，距今已经多年。创始团队大多有学术界背景，经历了深度学习、强化学习等技术的崛起。我们看到图形处理器（GPU）和其它硬件正在迅速发展，如果专注于通用学习系统，并借鉴神经科学的一些思想，可以取得很大的进展。我们最初在一些游戏系统上取得了一系列成就。2014 年，我们预见到未来的工作将需要更强大的算力，于是决定与Google合作。事实证明，这对于我们之后能够专注于推动研究进展是一个好的选择。

N：之后Google成立了母公司 Alphabet，而 Google 和 DeepMind 都成为了旗下的部门。Google推动 Google Brain 做了很多语言模型方面的研究，而 DeepMind 则专注于赢得围棋比赛和蛋白质折叠等完全不同类型的 AI 研究。为什么这些研究不在Google内部进行？

D：这是我们被收购时签订协议的一部分，DeepMind 专注于继续推进 AGI 的研究，实现能够在各种认知任务上运作，并具备人类所有认知能力的系统。

同时，DeepMind 热衷于利用 AI 加速科学发现，诞生了 AlphaFold 这样的项目。实际上，早在 DeepMind 成立之前，我就认为游戏是开发高效、快速 AI 算法的完美测试环境——你可以生成大量的数据，目标函数也非常明确。

这些证明了通用学习技术是有效的。当然，我们也在深度学习和神经网络方面做了很多工作，将这些技术与强化学习相结合，使系统能够自主进行决策规划、在游戏中取胜。DeepMind 一直怀揣着推动研究进展和科学进步的使命。Google Brain 等Google内部的团队更接近产品，旨在将惊艳的 AI 技术融入Google产品。DeepMind 也设有将 DeepMind 的技术引入Google产品中的应用部门。两个团队的文化和任务确实有很大的不同。

N：当你听到 Sundar Pichai 合并 DeepMind 和 Google Brain 的想法时，反应是怎样的？

D：这更像是各个相关团队的领导者与 Sundar 之间进行的一次对话，我们讨论了能预见到的拐点、系统的成熟程度、在产品领域可能实现的内容、如何改善我们的用户体验，以及这一切需要的综合性要素。我们深入分析了关注点的变化，研究方法的改变，以及像计算资源这样所需资源的整合。作为领导团队，我们讨论了一系列要考虑的重要因素，从中得出结论，包括合并的决定以及接下来几年的计划和合并后的研究重点。

N：如何组织 DeepMind 和 Google Brain 合并后的团队？如何进行文化整合？

D：事实证明，两个团队文化的相似程度要高于外界的报道。整个融合过程非常顺利和愉快，这是两个世界一流的研究团队、最好的 AI 研究机构，都有出色人才和成绩。我们曾列出每个团队的前十项突破性成果，发现它们涵盖了过去十年来构建现代 AI 行业的 80%-90% 的突破（从深度强化学习到 Transformer 等）。两个团队在过去的十年中，有大量合作项目，彼此非常了解。

合并的关键在于协调两个团队，明确着重关注哪些领域。两个独立团队合作是有意义的，也许还可以消除一些重复性的工作。这样的整合对于我们进入 AI 的新时代来说非常重要！

在新时代，人工研发团队的工作更多地涉及到 AI 工程化，需要大量的计算资源、工程资源等条件。即使是像Google这样规模的公司，也必须谨慎选择，明确投入资源的方向。这是我们在 AI 之旅中自然进化过程的一部分。目前，新团队的组织结构仍在不断演变中。

这是一个新的统一团队。我称之为「超级单元」（super unit）。我们正在形成新的文化和组织结构，将两个如此庞大的研究团队合并在一起是一个复杂的过程。在今年夏末之前，我们将成为一个统一实体。我们的下一代多模态大型模型「Gemini」就结合了 DeepMind 和 Google Brain 两个世界一流研究团队的最佳思路。

大模型引爆的 AGI 新时代

N：从外部看，语言大模型的研究已经有很久的历史。但是 ChatGPT 发布后，引起了巨大的反响。微软基于 ChatGPT 发布了新的 Bing 搜索引擎。Google通过合并 DeepMind 和 Google Brain 做出了反应。这个时间线正确吗？

D：这个时间线是正确的，但这并不是直接后果，更多是间接后果。Google一直以来的运作方式都是如此：他们让许多「花朵」绽放！这符合 Larry Page 和 Sergey Brin 创办Google的初衷。在这种方式下，Google创造出许多令人难以置信的产品，并成为一家了不起的公司。我认为这非常有利于开展研究，也是 DeepMind 在 2014 年选择Google作为合作伙伴的原因之一。他们真正理解基础研究和前瞻性研究的意义，并将促使我们在研究中有更大的目标。

AlphaGo、AlphaFold 等 20 多篇发表在《自然》和《科学》等期刊上的论文，都是我们取得的令人惊叹的前沿研究成果。但从某种意义上说，ChatGPT、大模型以及公众对此的反应，都证明了 AI 已经进入了一个新时代。其实从研究人员的角度来说（包括 OpenAI），我们对于 ChatGPT 的大火也感到惊讶。DeepMind 和一些其他初创公司（如 Anthropic）都拥有这些大型语言模型，它们在功能上大致相同。

因此，令人惊讶的并不是技术本身，而是公众对此的兴趣以及由此产生的热议。这表明我们在过去两三年中一直有一种共识，即这些系统的成熟度和复杂度达到了一定水平，可以真正走出实验室，用于推动下一代产品的研发，取得突破性的成果（如 AlphaFold 直接被生物学家所使用）。人工智能进入了新时代，它们在人们的日常生活中真正发挥作用，能够解决真正重要的现实难题。我们需要精简研究的方法以及对产品的关注程度，这也在某种程度上促进了 DeepMind 和 Google Brain 的合并。

N：之前，AlphaFold、AlphaGo等工作专注于完成人类无法做到的困难任务（例如，预测蛋白质结构，击败围棋世界冠军）。但是 ChatGPT 大火的原因似乎是它通过 AI 完成了普通人能够做到的事情，触动了大众。之前整个行业为什么没有预见到这种转变？

D：这个分析是正确的，这是大型语言模型真正进入公众的视野的原因之一。因为它是「普罗大众」可以做到的事情，引发了社会的理解和互动。语言对于人类智力和我们的日常生活至关重要，因此聊天机器人以特定的方式迅速传播开来。

实际上，AlphaFold 在 AI for Science 领域对世界产生了迄今为止最明显、最巨大和最积极的影响，包括诺贝尔奖级别大师在内的数百万生物学家、研究人员和医学研究人员都在使用 AlphaFold。它已经对他们的重要研究工作产生了巨大的影响并加速了这些工作的进程。但当然，普通人可能连蛋白质是什么都不知道，也不了解 AlphaFold 等工具对于药物发现等事物的重要性。而每个人都可以理解聊天机器人，人们对聊天机器人的功能的感觉非常直观。

N：这些聊天机器人或生成模型也具有一些风险，有人担心它们会「毁灭人类」。在研发 AlphaFold 的过程中，是否受到了同样程度的审查。

D：确实受到了很多审查，这是一个非常专业的领域，对于知名专家来说是如此。我们与该领域的 30 多位专家进行了交流，包括顶级生物学家、生物伦理学家和生物安全专家。我们与欧洲生物信息研究所合作，发布了 AlphaFold 数据库，其中包含所有蛋白质的结构信息，他们也指导我们如何安全地发布这些数据。然而，人们的主要结论是，AlphaFold 等工具的益处远远大于风险。尽管我们根据他们的反馈对要发布的结构进行了一些微小的调整。但确实受到了很多审查，但再次强调，这只发生在一个非常专业的领域。关于生成模型，我们正处于新时代的开端，这个时代将在五到十年内到来。

生成模型可被用于推动科学发展、改善数十亿人的日常生活，聊天机器人只是冰山一角。AI 的类型远不止生成式模型，规划、深度强化学习、决策和推理等能力将在下一波浪潮中再次回归。两年后，我们将会谈论全新类型的产品、体验和服务，它们具备前所未有的能力。Google DeepMind 将专注于构建这些基于人工智能技术的下一代产品。

N：人类需要做出许多复杂的决策。作为国际象棋大师和曾经制作过游戏的人，你有怎样的决策框架？

D：在国际象棋中，「问题解决和战略规划」是非常有用的决策框架。国际象棋是在对手的压力下做决策，它非常复杂。是解决和决策能力的训练场所。但是，我认为总体的方法更接近于科学方法。我在博士和博士后阶段的训练都是在神经科学领域进行的。我学习了关于大脑的知识，懂得了如何进行严格的假设检验和假设生成。科学方法以及国际象棋的规划都可以转化到商业领域。在现实世界中，商业领域通常存在许多不确定性和隐藏信息。你必须聪明地将其转化这些技能，不能过于学术。

我倾向于提前很长时间就做出规划。无论在组织、产品还是研究方面，我们可以想象或构思出完美的最终状态，然后确定所需的步骤及执行顺序，最终实现目标。这一决策过程与国际象棋也很相似。为了增加实现最终结果的可能性，必须采取渐进的措施来改善「局势」。从最终目标回溯到当前状态的搜索过程非常有用。

Google的 AI 技术不仅仅应用于面向消费者的产品，还应用于人们很难意识到的底层系统。例如，我们最初将 AI 系统应用于Google数据中心的冷却系统，减少了近 30% 的能耗，效益巨大的。实际上，底层有很多应用 AI 不断提高系统效率的技术。当前的产品并不是最终状态，仍处于过渡阶段。聊天机器人等系统最终将演化为全能个人助理，而目前的聊天机器人离实现这一点还有很长的路要走，还要补足规划、推理和记忆等要素。未来将出现的技术革新远比如今的聊天机器人更加令人期待。

N：大语言模型是否会成为一种人类语言接口，其背后实际工作的可能是 AlphaFold 这样的系统？你是怎么考虑将这些东西串联在一起的？

D：实际上，目前已经有一整个分支专注于研究「工具使用」（tool use）。大型语言模型或大型多模态模型在语言方面是专家，还具备一些数学和编程等能力。但如果让它们完成一些专业的任务，比如折叠蛋白质、下国际象棋，它们会调用专用工具（可能是另一个 AI 系统），该工具提供特定问题的解决方案。然后，系统通过语言或图像的形式，通过中央大语言模型系统反馈给用户。对于用户来说，底层工作的系统实际上不可见，所有模块被封装为具备多种能力的大型 AI 系统。但在底层，这个 AI 系统可能被拆分为具有特殊功能的子系统。

实际上，新时代的下一代人工智能系统将运用上述多种能力。可以将中央系统想象成为一个「switch」语句，可以通过语言有效地提示，并将查询、问题或任何要求它解答的内容根据需要连接到合适的工具，从而解答问题或提供解决方案，并通过非常易于理解的自然语言方式反馈给用户。

N：这个过程是否将使我们更接近 AGI？

D：这是通向 AGI 的关键路径。实际上，产品和研究的路线图在实现 AGI 或人类水平的 AI 方便极度互补。为了构建那些在日常生活中有用的、像通用助手一样的产品，我们需要推进一些关键能力的研发，如规划、记忆和推理，这些能力对实现 AGI 至关重要。现在，产品和研究之间有一个非常好的反馈循环，可以有效地互补。

N：我们还需要多少年才能实现 AGI ？

D：该问题还存在很多不确定性，需要创新性的突破，而不仅仅是将现有解决方案的规模扩大。如果需要很多重大突破，那么会更加困难，需要更长的时间。就目前而言，未来十年左右大致实现 AGI，并不会令人惊讶。

真正的研究从来都不是一条直线，也不可能在开始研究前就知道答案，研究总是伴随着不确定性，我们无法准确预测实现 AGI 的时间表。但我们可以关注趋势，观察当下正在推进的想法和项目的质量以及它们的进展情况。在未来的五到十年内，我们可能会趋近于逐步提升的状态，也可能在现有技术的扩展方面遇到瓶颈，导致系统的性能和收益递减。

目前，没有人知道我们处于哪种状态。因此，我们必须尽可能地同时推进以下两方面的工作：（1）在现有系统和想法的规模扩展和工程方面投入大量资源；（2）继续进行探索性研究，以期能够提供创新，解决当前系统的一些弱点。作为一个拥有大量资源的大型研究组织，这是我们的优势。从某种程度上说，我对于「我们是否需要更多的突破，还是现有系统可以一直扩展」？这个问题持中立态度。我认为这是一个经验性问题，应该尽可能地同时推进这两个方向。

Google的安全 AI 研发宗旨：「大胆又负责」

N：Google在当下的竞争中承受着巨大的压力。据说有一段泄露的内部文件，声称：Google没有竞争优势，人们可以运行开源的 AI 模型，并且它们会超过Google。这份文件是真的吗？

D：我认为那份文件是真的，Google的工程师经常撰写各种文件，有时它们会被泄露并迅速传播。听取这些观点很有趣，但你需要为自己的道路做出决策。DeepMind 也有大量的开源工作（例如，AlphaFold）我们支持开源、开放研究。这对于科学讨论十分关键，DeepMind 和 Google 一直是开源社区的重要成员。Google发布了 Transformer、TensorFlow 和等重要工作。

回顾Google和 DeepMind 在过去十多年间所做出的创新和突破，我坚信我们会继续产生下一个关键突破。从事研究是为了探索知识，最终改善人类社会。我们希望以负责任而大胆的方式成为首个在这些领域取得成就的组织。在全球范围内，我们拥有最多的顶尖研究者，有出色的研究成果，这种情况在未来会持续下去。事实上，相比于过去，我们的新组织可能会更多、更快地取得突破。

当然，我们也需要考虑商业因素，以及访问这些强大系统的安全问题。如果坏人可以访问它，也许他们并不具备那么高的技术水平，无法自己构建新的系统，但他们可以重新配置已经存在的系统。随着人工智能系统变得更加通用、更加复杂、更加强大，安全问题将变得非常重要。

N：在 AI 的发展过程中，人类针对劳动力相关的问题展开了许多讨论。好莱坞的编剧目前正在罢工，因为他们不希望 ChatGPT 写剧本。另一方面，出现了数据标注人员、模型训练人员等新职业。这种状态会持续下去吗，这些职业是会有终结的时刻？

D：很难说。目前，这些职业与系统和它们目前所需的工作相关。对于这类工作，我们一直十分谨慎地支付合理的工资，并非常负责地处理这类工作、选择合作伙伴。我们也使用内部团队进行这类工作。实际上，我为我们在这类工作上的负责任表现感到非常自豪。但是展望未来，当用户量达到数百万时，我认为人工智能系统可能会有自我演进的方式。

这就好比将语言系统转化到类似游戏的设置下。DeepMind 很擅长这类工作，我们一直在思考用不同版本的强化学习系统对彼此进行评估。也许这样的评估不如人类评估准确，但它实际上是一种有用的方法，可以用来进行一些基本的评估工作，进而使用人类评估者对评估结果进行校准。许多创新正在逐渐涌现，将有助于解决这个问题，对人类评估者的需求会减少。

N：为 AI 系统标注数据、评估系统等工作有怎样的价值？从道德和哲学上如何看待「我将告诉一台计算机如何理解世界，以便它在未来可能取代其他人」？

D：评估者们是 AI 系统发展过程中的一部分，他们保证 AI 系统更安全、更有用、更可靠和更可信，这是一个至关重要的组成部分。在许多行业中，我们对技术和产品进行安全测试。对于 AI 系统来说，目前最好的办法就是引入人类评估者。在未来，我们需要更多的研究，需要不止一个组织建立出色、可靠的评估标准。

目前，学术界、民间机构和其它领域的研究人员提出了许多关于这些测试的方案，但它们还不够鲁棒且实用。这些方案大多还停留在理论和哲学层面。我们需要实际应用这些方案，尝试对我们的系统进行实证测量，以期在一定程度上保障系统的性能。一旦有了这些测试方法，对人工评估测试反馈的需求将会减少。目前，我们还没有建立这些独立的测试基准，还没有严格定义系统的特性，仍需要人工评估测试反馈。这是一个涉及神经科学、心理学和哲学的领域。实际上，神经科学家们仍未正确定义一些有关人类大脑的术语。

N：你签署了来自 Center for AI Safety 的一封公开信，OpenAI 的 Sam Altman 和其他人也签署了这封信，警告人们 AI 可能带来的风险。然而，Google也声称参与市场竞争，并且必须取得胜利。如何平衡这种风险呢？

D：这确实存在一种创造性的矛盾。在Google，我们希望做到「既大胆又负责任」，这是我们努力追求的目标。所谓「大胆」，指的是对 AI 为世界带来的好处持乐观态度，从而帮助人类应对我们面临的最大挑战（例如，疾病、气候、可持续发展等问题）。AlphaFold 就展示了我们在这方面的努力。

而「负责任」指的是确保我们以尽可能多地保持审慎态度，尽可能提前预测产品可能带来的影响。社交媒体就是一个例子，它经历了令人难以置信的增长，为人类带来了很多好处。但 2015 年后，我们才意识到这些系统也带来了一些意想不到的后果。AI 是一项深刻、重要和强大的技术，我们要避免如此具有变革潜力的技术带来不利后果。这并不意味着不犯任何错误。AI 是一项非常新的技术，无法事先预测一切，但我们可以尽力做到最好。

我们应该考虑在接近 AGI 时，这些系统能够做什么、可能会做什么。目前，我们离那个阶段还相差甚远。这不是关于当下或未来几年的技术问题，但考虑到技术的快速发展，我们需要防患于未然。我们需要利用现在的时间进行研究和分析，并与各方利益相关者（包括民间机构、学术界和政府）进行互动，从而在这个快速发展的领域中，确定最佳方案，将收益最大化并将风险降至最低。目前，这主要包括提出更好的评估方法和基准来对前沿 AI 系统的能力进行严格测试。

N：根据以往的经验，将大语言模型、AlphaFold 等系统集成在一起时，会出现新的行为特征、以及无法预测的事情。你对此感到担忧吗？

D：没错，完全正确。随着工具使用变得更加复杂，以及能够以不同方式将不同的 AI 系统组合在一起，可能会出现新的行为特征。当然，这种新行为特征可能非常有益，但一旦被居心叵测的人利用，它也具有潜在的危害性。

N：假设全世界大多数国家都就某种 AI 监管框架达成一致，但个别国家却并不接受这样的监管。这些不接受监管的国家这将成为恶意 AI 研究的中心。那会是怎样的情景呢？

D：是的，我这是可能的。我们一直在与政府进行对话。我认为，在未来几年内，应该测试一系列监管措施、防护措施。理想情况下，这些措施应该是全球性的，在人工智能系统的安全保障方面进行国际合作，制定国际协议。

N：如果政府要求企业对其开源产品被用于恶意用途而负责，会产生怎样的影响？

D：这些是当前人们正在辩论的重要问题，确实令人担心。一方面，开源和加速科学讨论有利于人们取得新的进展，给许多开发者提供了机会。另一方面，如果有一些居心叵测人利用这种途径进行破坏，可能会带来一些负面后果。现在的系统并不那么复杂、强大，因此风险也小一些，这是接下来几年需要解决的问题。

随着系统能力和普适性增强，需要从政府的角度思考访问权限的问题，给出合理的限制、控制或监控政策。这实际上是一个社会性问题，需要社会各界的利益相关者共同参与，权衡其中的利益和风险。

N：近期，Google在 AI 领域的工作引发了一些争议。例如，Emily Bender、Timnit Gebru 和 Margaret Mitchell 发表了一篇著名的《随机鹦鹉》（Stochastic Parrots）论文，声称大语言模型会向人们「撒谎」，其生成的结果缺乏实际意义。AI 产品提供者是否需要为这些生成结果负责？

D：是的。事实上，大语言模型存在「幻觉」和输出不准确的问题，Google一直对此非常负责任的。接下来，改善语言模型输出的事实性、联系性以及确保它们不传播虚假信息等问题是需要加以改进的关键领域。DeepMind 曾经发布的 Sparrow 语言模型旨在探索在大语言模型系统的输出的事实性，观察它们遵从规则的程度。结果表明，在事实性方面的改进有时候可能以语言模型的清晰度、创造力或实用性为代价。

这有点像是多目标优化的帕累托边界（Pareto frontier），如果在一个维度上改进，就会降低另一个维度上的能力。理想情况下，我们希望在下一代人工智能系统中将创造力、清晰度和趣味性与事实性和可靠性相结合。尽管还有很长的路要走，但是并不存在很大的理论阻碍。

Google的搜索生成体验：仍在改进中

N：当你使用Google的搜索生成体验（SGE）时，你是否相信生成的内容？

D：我相信它。但有时我会进行核实（尤其是在科学领域）。例如，如果它们能够总结某个领域的研究将非常有用，我会问它「应该阅读哪些重要的论文」？系统会给出看似非常可信的论文，带有似乎合理的作者名单。但实际上系统只是将该领域最有名的人或两篇不同论文的标题组合在一起。在这种情况下，这些系统需要理解引用、论文和作者名单是一个整体，而不是逐字逐句的预测。作为想要推动科学前沿的公司，我们确实需要改进、修复这些问题。

Google在搜索方面有着极高的标准，我们每天每时都依赖这些服务。我们希望能够达到很高的可靠性水平。任何人在生成系统方面都还远远没有达到这个水平。实际上，你可以构建多个系统，使它们能够自动进行事实核查，甚至使用搜索引擎或其它可靠的来源进行交叉参考，就像一个好的研究人员一样交叉核对事实。同时，系统还需要对世界有更好的理解，具备推理和规划的能力，对自己的输出进行评价。

N：有一个概念叫做模型崩溃（model collapse）：用由大型语言模型生成的数据来训练大型语言模型，这可能形成一个循环。如果用于训练模型的信息本身是错误、不真实的，该如何防范这种情况？

D：我们正在致力于解决这个问题。我们试图使用加密水印技术（encrypted watermarking），它很难被移除，可以直接嵌入到生成模型中，成为生成过程的一部分。我们可能将这一技术作为通用解决方案提供给第三方，对生成的媒体数据（包括图像、音频、文本）打上标记，向用户和未来的 AI 系统表明这些媒体是由 AI 生成的。这是当前 AI 面临的一种非常紧迫的需求

Google DeepMind掌舵人Demis Hassabis专访：合并后「超级单元」内幕，以及如何开展下一代模型研究

猜你喜欢