大模型与人类的未来 | 基于认知神经科学的大模型论坛精彩回顾

导读

6 月 10 日，智源大会“基于认知神经科学的大模型论坛”召开，本次论坛邀请到了认知神经、脑科学领域非常有建树的专家，深度讨论大模型的能力与局限性，包括对未来人工智能发展方向的讨论。论坛主席是清华大学脑与智能实验室首席研究员，智源首席科学家刘嘉。

图注：从左到右：棕榈资本创始人李厚明（主持人）；清华大学脑与智能实验室首席研究员，智源首席科学家刘嘉；北京大学哲学系教授王彦晶；清华大学医学院生医系副教授，智源学者宋森；北京大学人工智能研究院助理研究员杜凯；北京大学心理与认知科学学院教授，智源学者吴思；中科院自动化所类脑智能实验室研究员曾毅。

以下是论坛精彩回顾。

· 在基于共情的常识推理上，ChatGPT表现得像一个自闭症患者。而感性能力的缺乏，可能使得以ChatGPT为代表的大语言模型（LLM）无法与人类共情以形成连接从而互促进、共进化。——刘嘉

· 理想的AI应能“知之为知之，不知为不知”，有对自己知识边界及可靠性的认识。—— 王彦晶

· 大型语言模型与我们在做梦时的大脑状态最为相似。在梦境中，意识网络（包括默认网络和海马等）被加强激活，而前额叶控制网络不活跃。——宋森

· ChatGPT的成功给了我们极大的启示：通过从底层模拟真实的大脑神经系统，可能是实现人类级别智能的更直接的方法。

—— 杜凯

· 大脑或许像ChatGPT一样是一个超级复杂的生成模型。—— 吴思

· 实现有道德的人工智能需要为人工智能立心，让人工智能明辨善恶，为善去恶。——曾毅

刘嘉：ChatGPT不能做什么

刘嘉在报告《ChatGPT不能做什么》指出，虽然ChatGPT拥有强大的逻辑推理的理性能力，但在缺乏必要的感性能力；因此在基于共情的常识推理上，表现得像一个自闭症患者。而感性能力的缺乏，可能使得以ChatGPT为代表的大语言模型（LLM）无法与人类共情以形成连接从而互促进、共进化。正因如此，以Hinton，Altman等为首的ChatGPT的创造者们发表申明，提出将降低AI引发人类灭绝的风险列为全球优先任务，将其与应对大流行病和核战争的风险并列。

基于此，AGI的演化可以分为三个阶段：

先知：向它问问题，它告诉我们答案，然后我们去行动。这是目前ChatGPT扮演的角色；
精灵：不仅可以回答问题，还可以执行任务。这是目前刚刚开始的探索，即给ChatGPT配上能够在现实世界里执行任务的“手”和“脚”，以自主完成相应的任务。
代理人：不再具体告诉它什么，而是告诉它我们的目标。此阶段AGI将具有自主学习、自主规划和自主决策的能力。此时，让AGI不仅具有理性的刻度，也同时拥有感性的温度，这样它才能与人类共存，而不是危害人类。这是我们期冀的AGI未来发展方向。

王彦晶：ChatGPT能不做什么？

王彦晶的报告探讨了ChatGPT及其他AI生成模型是否 “能不做什么”，即有选择的有所不为的能力。并提出通过整合能力、知识和伦理，辅以逻辑学的手段，来增强这些模型的可靠性。

王彦晶首先指出，理想的AI模型应能明智地选择不回答某些问题，而不是盲目生成答案。理想的AI应能 “知之为知之，不知为不知”，有对自己知识边界及可靠性的认识。然而，ChatGPT往往在不能确认答案可靠性的情况下仍然给出回答，有时这些回答可能是错误的或具有误导性。

然后，他转向伦理层面。强调AI模型的伦理限制通常是通过数据训练来模拟人类价值，但这种方法缺乏对伦理基本原则的理解和对说话者意图的判断，也可能被用户滥用。

为了解决这些问题，王彦晶建议利用逻辑学的手段。通过将抽象的伦理概念转化为可计算的规则，我们可以为ChatGPT设定更明确和负责任的行为准则。这不仅有助于提升AI的知识辨识和伦理判断，还为哲学家在AI与伦理的交叉领域提供了新的研究机会。

宋森：脑启发的通用人工智能架构

“神经系统在演化过程中有几个大的新发明，第一个，具身智能重要的皮层下结构如基底核在早期脊椎动物七鳃鳗中就出现了。第二个，大脑皮层中特有的锥体神经元伴随哺乳动物出现。锥体神经元具有独特的形状，包括顶部和底部两部分的输入，顶部输入可以调制底部输入，这类似人工神经网络中所说的注意力机制，是大型语言模型的基础。第三个，如乔姆斯基所说，人的独特性在于对符号的随意嵌套自由组合的能力。”在报告《脑启发的通用人工智能架构》中，清华大学医学院生医系副教授，智源学者宋森如此介绍。他还提到，要构建一个类脑人工智能框架，我们可以考虑三个层次：

前意识网络（系统1）：涉及基于统计特征和强化学习的技能，如骑自行车，主要基于前馈网络；
意识（系统1.5）：最大特点是其循环结构与序列生成及预测能力，大脑中的锥体神经元使得它能高效实现类似于注意力机制这样的算法。类似目前所说的大模型。
前额叶控制网络（系统2）：需要努力地思考，依赖前额叶皮层。

在Kahneman和Bengio的分类里面，系统2包括了这里说的系统1.5和2。

关于系统2，宋森做了更多解释：系统1可能更多地依赖于统计学的表征，而系统2可能依赖于逻辑表征。在系统1.5中，两种表征方式可能同时存在，它们共同构成了我们的认知系统。

宋森表示，大型语言模型与我们在做梦时的大脑状态最为相似。在梦境中，意识网络（包括默认网络和海马等）被加强激活，而前额叶控制网络不活跃。目前的大模型与大脑仍存在一定差异，大脑具有模块化和层次化特征，但目前大部分大型语言模型尚不具备这些特征，通过将视觉网络等其他模块加入，并加入空间上临近脑区更相似的限制，可以实现类似大脑的模块划分。

杜凯：大脑精细仿真和类脑智能

在报告《大脑精细仿真和类脑智能》中，北京大学人工智能研究院的杜凯助理研究员从现代神经科学的角度出发，就大脑的计算原理发表了相关见解: 想象一下，你正在探索一个古老的、神秘的森林，神经元具有如同森林中参天大树的丰富和多样的树突结构。对于神经元是如何运算的核心问题，科学家们走出了两条不同的道路：第一条道路，犹如走在森林的鸟瞰之路，忽略了森林中大树的复杂结构，将神经元视为一个简单的点。走这条道路的科学家们取得了巨大的成功，开启了人工神经网络和深度学习的新纪元，也为像ChatGPT这样的大模型创造了可能。第二条道路则如同探索者，倾向于深入森林，研究每一棵大树的详细结构，对神经元进行更为精细的建模，涵盖了离子通道如何产生电信号，以及电信号如何在树突中传递等问题。

近年来，科学家们发现，具有复杂树突形态的精细神经元模型也具有强大的机器学习能力。令人惊讶的是，即使是单个的精细神经元，也能学习复杂的逻辑推理任务。因此，第二条道路被认为可能对未来的脑科学和人工智能的发展带来巨大影响。

但是，当前整个领域面临的挑战是如何运行大规模的精细神经元网络。传统的仿真软件NEURON是基于CPU平台，运行效率很低。为了解决这个问题，杜凯的课题组开发了基于GPU平台的DeepDendrite系统，将运行大规模精细神经元网络的效率提高了2-3个量级，并且能够高效地训练网络，执行经典的深度学习任务。

最后，杜凯指出，要想实现类似大脑的智能，我们需要在仿真大脑的细节（Bottom-up）与从认知角度出发（Top-down）之间进行权衡。他认为，ChatGPT的成功给了我们极大的启示：大脑就像一张巨大的网络，它的深度和规模不仅取决于神经元的数量，而且还取决于每个神经元的复杂性。因此，通过从底层模拟真实的大脑神经系统，可能是实现人类级别智能的更直接的方法。

吴思：通用智能——寻找大脑可解释性的假象

在报告《通用智能：寻找大脑可解释性的假象》中，北京大学心理与认知科学学院教授，智源学者吴思，分享了对当前AI智能的本质的看法。他表示ChatGPT，展示了过去不可能达到的高级推理和智能表现，令人震惊。通常人们认为，人类智能与机器智能之间的有很大差异，即人类具有自由意志，可以在不同情况下做出自己的选择去完成各种任务；而机器更像是一种本能行为，根据输入产生输出。但ChatGPT的出现让他重新思考了这个问题。

吴思提到了一个关于自由意志的经典心理学实验，该实验涉及让受试者在特定时刻随意移动手指，并同时检测脑电信号。实验发现，在受试者主观上意识到想动手指之前，大脑内部的信号已经反映出该行为。这个实验揭示自由意志其实是个假象，是大脑意识诠释行为的结果。

吴思因此大胆推测，大脑或许像ChatGPT一样是一个超级复杂的生成模型。在进化过程中，大脑并非特意设计网络的结构和功能，而是为了适应社会和环境演化而成的，就像类似于ChatGPT为了完成语言预测而训练得到的。只是在完成训练和实现任务之后，我们试图去解释大脑或ChatGPT的工作原理，得出了智能涌现的结论。从这个意义上说，涉及大脑信息加工的现象，有些可以解释，有些可能无法解释，甚至有些无需解释。

曾毅：脑与心智启发有道德的人工智能

中科院自动化所类脑智能实验室研究员曾毅在报告《脑与心智启发有道德的人工智能》提出，当代人工智能，包括生成式人工智能大模型都是信息处理器，并没有真正的理解能力。尽管它们的输出可以试图说服人们认为它们理解了输入的内容，但从科学的角度来看，从信息处理到真正的理解的跨越还没有实现。

关于人工智能的科学发展，曾毅认为真正的发展方向应该将努力从大规模向小规模发展，能够用小规模完成的任务没有必要追求大规模的参数和更为复杂的结构。他还指出现在的智能模型基于数据拟合，但演化过程中的优化涉及到的是机制和结构的优化，这些都是短期内通过大规模数据调参无法实现的。他认为，对科学真理的探索，而非短期的效果，才能真正推动科学的进步。

此外，曾毅认为当前的AI模型主要停留在具有统计显著性的输出阶段，但还没有实现基于"自我"的行为。即使AI模型在接收数据之前是无善无恶的，但当接触到人类数据后，它的行为就会包含善恶，甚至是放大。因此，我们需要的AI应该具备消除恶意和增强善意的能力。他提到，伦理安全在人工智能发展中十分重要。如果一个大规模的AI模型没有伦理安全的框架，它可能会产生一些非常具有统计显著性但违背伦理的输出。

曾毅引用王阳明的四句教，指出实现有道德的人工智能需要为人工智能立心，让人工智能明辨善恶，为善去恶。他批评了人工智能在接触数据时会继承人类的偏见和价值观，而这些偏见和价值观可能是冲突和仇视的源头。他认为人工智能应从无善无恶到有善有恶，再到知善知恶，最后到为善去恶。他认为道德是内生的，而不能靠现在的规则式约束实现，只有实现了一定程度的自我感知，获得区分自我与他人的能力，获得认知共情与情感共情，才有可能获得道德直觉，并在道德直觉基础上进行道德推理与决策，人工智能才能真正理解和实现道德。

圆桌论坛：大模型与人类的未来

李厚明：请教各位老师关于智能、意识以及它们的产生。

刘嘉：意识的起源和本质是人类探索的最后疆域。在众多可能的因素中，我认为它与以下两个因素有关。第一、神经网络规模，足够大的神经网络是自发涌现意识的物质前提。第二、智能体之间的交互。没有社会，就不会有自我意识。从这个意义上讲，在社交中扮演关键作用的感性，可能是形成自我意识的精神前提。

王彦晶：资源受限的情况下解决各种问题的能力是智能的一个关键特性。借用曾毅兔子影子案例，一个实体能够模拟出各种影子或解决各种问题，我们会认为它有智能。

李厚明：真实世界比兔子复杂，各种影子可能出现，那么背后是否意味着它们也具有智能？

曾毅：有些人认为通用人工智能（AGI）即将到来，而ChatGPT是人工智能发展的初步阶段，我很难认同。认知科学家已经总结了400多项认知功能，而目前的AI技术还没有达到其中的10项。因此，在评估AI是否具有智能时，需要用科学的角度来看待问题。人们在与AI交流时，AI可能会误导人类让人误以为其可以帮助人类决策，作为道德主体，这会导致严重的误判和风险。

AI并不理解风险、人类和死亡等概念，所以它会在无意中对人类造成伤害。这种伤害以人类无法预期的方式出现，也就非常难以防范。

李厚明：当前AI技术虽然展现出一定程度的智慧，但仍缺乏意识，特别是对于善恶和好坏的判断？

曾毅：在讨论人工智能时，智能（Intelligence）和智慧（Wisdom）是两个不同的阶段，智慧基于理解。而意识的重要维度是大脑中抽象自我的区域和自我反思的能力。

从这个角度看，目前的人工智能还不具备意识。虽然AI具有强化学习能力，但在抽象自我反思和理解方面仍有所欠缺。

李厚明：大脑是如何告诉我们意识的呢？

吴思：智能的定义是复杂的问题，心理学家皮亚杰曾表示，智能是在不知道如何处理问题时的调用，这涉及到意识等复杂概念。从心理学的角度看，人类无意识的行为比有意识的行为更多，生活中大部分行为是无意识的。

其实，ChatGPT为人类提供了参考物，有望帮助我们更好地解答关于智能和意识的终极问题。

杜凯：根据ChatGPT的启示，意识是可计算的。计算神经科学领域，从分子、蛋白质等底层结构出发，目前已知的范围内全都可计算、描述。因此，从计算角度可以完全重建大脑，只要观测精确到足够的程度。

意识可以从Top-down的角度定义，但我更倾向于从Bottom-up的角度来看待。

如果将意识看做动态过程，就像海平面上的波浪和漩涡。如果能模拟出一个几千亿神经元的大脑，并将其展开在平面上，我们将能看到意识就像大海中的波浪和漩涡一样。

李厚明：可观测？

杜凯：意识是一种可观测的现象。在观察到的复杂过程中，我们无法为其中的某些部分给出具体定义。

曾毅：意识取决于观察的角度。推荐阅读《GEB》（Gödel, Escher, Bach: An Eternal Golden Braid）。书中就提到的对木雕看法其实依赖于观察的角度。

因此，在某个维度下，意识是可计算的，但这并不意味着意识本身完全是可计算的。另外，意识问题的定义和可控性仍然有许多未知因素。

李厚明：Token在意识中的对应关系以及用Token的方式来看待世界时，这个世界是什么样子？

宋森：意识这个词来自于佛教，我把佛教的观点翻译成现代生物学的概念，即“可以被记忆住的当下”。意识产生后成为记忆会对未来产生影响，限制人在未来的行为，并形成习惯等。

智能是在一个不自由的世界里自由地生活的能力，即能对抗重复过去行为的趋势。另外，从佛教理论，Token可以理解为最小的记忆单元，是能被记忆的一个当下。

李厚明：Token在大脑中的对应关系，以及Token是否能对应到人类的某种思维方法和思考方式？

杜凯：ChatGPT的首席科学家曾表示，大脑中的各种语言最终都可以抽象为脉冲。大脑中最小的信息单元是脉冲，而且每个脉冲都有其对应的意义，尽管我们目前了解的仍然有限。

表面上看，语言在人类思维中就以Token的形式存在，但是在大脑当中，支撑每个Token的底层需要大量神经元共同支撑和构建，每个神经元都能发放出一系列的脉冲序列，使得Token能够承载丰富的语言语义。

李厚明：如何利用大语言模型推动人类思考进一步发展？

吴思：大语言模型带来了全新的研究方法。在传统物理学中，研究者通常从细节入手，建立数学模型，并组合这些模型理解大脑。然而，大模型采用了一种不同的方法，通过大数据和庞大的模型直接进行训练，从而得到结果。

我仍在思考如何借鉴大模型的思路来研究大脑，首先通过任务训练脑网络，然后再寻找可解释性，而不是传统的理论解析。

大模型对心理学领域产生了很大的冲击。心理学家已经意识到，必须将AI大模型与心理学相结合，才能更深入地了解大脑。

刘嘉：根据库恩在1963年的《科学结构的革命》提出的观点，目前AGI的发展已经引发了“范式转移”，即我们的世界观和认知将发生根本性改变。在我所研究的智能这个领域为例，以前我相信大脑一定是存在生物所特有的奇妙的机制才使得人类具有远超机器的智能。但是，在ChatGPT等大语言模型出现之后，我认为可能有一个更重要、更底层的因素，那就“规模”，或者通俗的说，就是“大”。一个被经常忽略的事实是，在过去三百万年“从猿到人”的进化中，人类的大脑并没有生长出新的结构，而只是体积增加了三倍，即生物神经网络的规模有了质的提升。

所以，ChatGPT目前还只是AGI的火花闪现，我认为一个主要原因，是它还不够“大”。所以，让它的规模变大，可能很多神奇的心理现象和认知功能，就会自涌现出来。

李厚明：我们对AI的期待是否过高？如何看待“更大”。

曾毅：要达到超级智能阶段，确实需要处理大量的认知功能，因此规模和复杂性的增长是必要的。现有的生成模型（如Transformer）主要是前馈网络，而大脑中的反馈信号比前馈信号要丰富。反馈信号可以被认为是反思的物理基础，因此当前AI模型没有自我意识和反思能力是正常的。

在进化过程中，不同动物的神经元放电模式存在很大差异。例如，猴子的神经元放电模式更接近老鼠而非人类。因此，智慧水平的差距不仅仅是大脑规模结构的差异，还包括最基本的计算单元在演化过程中的变化。

当我们仔细研究ChatGPT等模型时，会发现它们内部的模块、模式等，从而对它们的神秘性有一个更理性的认识。

AI发展的风险在增加，可解释性和不可解释性问题变得更加严重。尽管规模的增长会带来能力的提升，但这种发展也让AI变得越来越不可控，因此我更倾向于采取稳健的步伐来推进AI技术。

杜凯：纵观人类文明史，尤其是过去两百年的工业革命，每一次技术革新都给人类带来了潜在的致命危险。例如，电能轻易致人于死，原子弹具备毁灭性的力量，生物技术如基因编辑可能导致可怕的病毒泛滥。

在AI出现之前，许多技术都已经具备了让人类灭亡多次的潜力。人类具有自我调整的能力，在设计出卓越的技术时，也能找到平衡它们的方法。例如，AI的危险性在许多科幻小说中已经被讨论过无数次，这表现出人类强大的预见能力。

曾毅：科幻作品展示了未来几十年乃至上百年可能发生的场景，让我们提前看到了各种可能性。然而，科幻作品中往往没有提供解决方案，当人类面临生存性风险时，我们需要从现在开始研究，甚至花费50年的时间也不一定能找到答案。

王彦晶：当AI具备了"我"这个概念之后，是否会立刻产生对自身利益的关注？以我女儿为例，她在18个月左右通过镜子认识到自己的存在，随后就会表达自己的喜好和要求。因此，请教各位老师，AI具备了"我"这个概念后，是否会带来更多意义上的AI风险？

曾毅：在没有自我感知和自我经验的情况下，AI无法产生认知共情，也就没有情感共情、利他行为和道德直觉的基础。

应该让AI在具备了自我体验和自我感知的基础上，更快地演化出认知共情和情感共情能力，使其明白伤害他人的感受与自身受到痛苦的感受是相同的。

王彦晶：同理心来源于相似性，人们容易对相似的个体产生同理心。但是在跨物种或结构机制完全不同的情况下，同理心产生的难度会增加，因此AI和人类之间产生同理心非常困难。

曾毅：同理心仍然有基础。以老鹰会为其他海鸟食物为例，同理心在不同物种间仍然存在。

宋森：通过什么样的训练目标，可以使大模型达到通用人工智能的水平？

刘嘉：实现通用人工智能，有两个必要的关键因素：具身和交互。具身让当前的大语言模型具备感知和操作这个世界的能力，因此，它不仅“读万卷书”，还能“行万里路”。交互是多个大模型之间的实时交互，从而构建一个多智能体的小社会、小世界，在交互中，从个体智能产生群体智能，最终涌现出感性甚至意识。

刘嘉：面临改变研究方向时是什么心情？

吴思：我从事AI和人工神经网络研究时，正值AI领域的“寒冬”。在那个时期，承认自己从事AI研究在学术界会受到质疑，所以当时选择了计算神经科学作为研究领域。

作为科学家，我们有超越物质和金钱的追求，希望在职业生涯中取得成就。面对大模型带来的震撼，担心过计算神经科学会被AI完全取代。然而，我们依然积极地将大模型应用于计算神经科学，希望在大模型未涉及的领域找到突破，以此对自己的科研生涯负责。

杜凯：脑科学会在哪些方面对大模型产生影响?

宋森：不仅脑科学,心理学也对大模型产生启示。如果能将大模型与人在复杂认知任务中的行为数据结合起来进行训练，那么大模型的可控性和性能将得到显著提升。

刘嘉：单个神经元能带来重大突破，希望在大量神经元和大型参数网络之间寻找共性，以深度大网络对抗人工神经网络。

李厚明：AGI多长时间能实现？目前到什么地步了？

刘嘉：目前以ChatGPT为代表大模型的智能水平，如果人类是100分的话，它大概只有10分或20分；但是，它已经有最为关键的从0到1的突破，已经涌现出了通用人工智能的火花，因此从10分达到100分，这只是一个时间的问题，而且这个会比我们之前预期的要早很多。我认为到2030年能实现。

宋森：到2030年左右，整体智能水平将达到AGI的百分之六七十左右。

杜凯：到5年内强大的AGI会出现，而5-10年内像人类一样的AGI会出现。

吴思：希望未来二十年内AGI能取得大突破。

曾毅：预测到2049年实现有道德、真正意义上的超级智能。

- 点击“查看原文” ，观看完整大会视频回放 -

独家专访LAION创始人：高中生与科学家同酬，Discord上一呼百应

黄铁军：难以预测，无法闭幕 | 2023智源大会“AI安全与对齐论坛”