人工神经网络中的多模态神经元

推荐：将 NSDT场景编辑器加入你的3D工具链

3D工具集： NSDT简石数字孪生

2005年，发表在《自然》杂志上的一封信描述了人类神经元对特定人的反应，例如詹妮弗·安妮斯顿或哈莉·贝瑞。令人兴奋的事情不仅在于他们为特定的人选择，而且无论他们是否看到照片、图画，甚至是这个人名字的图像，他们都会这样做。神经元是多模态的。正如主要作者所说：“你正在看到从度量、视觉形状到概念的转变的远端......信息。

我们报告了人工神经网络中存在类似的多模态神经元。这包括神经元选择杰出的公众人物或虚构人物，如Lady Gaga或蜘蛛侠。像生物多模态神经元一样，这些人工神经元在照片、图画和图像中对同一主题做出反应：

生物神经元剪辑神经元前人工神经元通过深度电极探测CLIP RN244_50x倒数第二层的神经元4神经元483，来自Inception v1的通用人检测器哈莉·贝瑞蜘蛛侠人脸

回应哈莉·贝瑞和哈莉·贝瑞穿着服装的照片✓

⟳ 查看更多回应蜘蛛侠穿着服装和蜘蛛的照片✓

回应人们的面孔✓

回应哈莉·贝瑞的滑稽✓

⟳ 查看更多回应蜘蛛侠和蜘蛛主题图标的漫画或绘图✓

对面部绘图没有明显反应✕

回应文本“哈莉·贝瑞”✓

⟳ 查看更多回应文本“蜘蛛”和其他✓

对文本没有明显响应✕逼真的图像概念图文本图像请注意，图像被来自Quiroga等人的更高分辨率替代品所取代，而来自Quiroga等人的图像本身就是原始刺激的替代品。

人检测神经元只是触及我们发现的高度抽象神经元的表面。一些神经元看起来像幼儿园课程之外的主题：天气、季节、字母、计数或原色。所有这些特征，即使是看似微不足道的特征，也具有丰富的多模态性，例如除了颜色之外，黄色神经元还用于“黄色”，“香蕉”和“柠檬”的图像。

我们在最近的CLIP模型中发现了这些多模态神经元，尽管在早期的模型中可能存在类似的未被发现的多模态神经元。CLIP模型由两边组成，一个ResNet视觉模型和一个转换器语言模型，训练使用对比损失对齐来自互联网的图像和文本对。有几种不同尺寸的 CLIP 模型;我们在所有这些模型中都发现了多模态神经元，但重点是研究中型RN50-x4模型。我们向读者推荐 CLIP 博客文章和论文，以更详细地讨论 CLIP 的架构和性能。我们的分析将集中在CLIP的视觉方面，所以当我们谈论响应文本的多模态神经元时，我们指的是模型“阅读”图像中的文本。

CLIP的抽象视觉特征可以被视为视觉和文本对齐的自然结果。我们希望词嵌入（以及一般的语言模型）能够学习抽象的“主题”特征。要么处理字幕的模型一侧（“语言方面”）需要放弃这些功能，要么它的对应方“视觉方面”需要构建视觉模拟。但是，即使这些特征在回想起来看起来很自然，它们与以前在视觉模型中研究的神经元在性质上是不同的（例如）。它们还具有现实世界的影响：这些模型容易受到一种“排版攻击”，其中向图像添加对抗性文本可能会导致它们被系统性地错误分类。

iPod95.5%黄鼠狼0.5%遥控0.4%仓鼠0.4%猫鼬0.2%獴0.1%

排版攻击。

神经元家族导览游

CLIP 模型中存在哪些功能？在本节中，我们检查了在四个模型中视觉侧的最终卷积层中发现的神经元。这些神经元中的大多数似乎是可解释的。 9 每一层由数千个神经元组成，因此对于我们的初步分析，我们研究了特征可视化，最能激活神经元的数据集示例，以及在栅格化为图像时最能激活神经元的英语单词。这揭示了令人难以置信的功能多样性，我们在下面分享了一个示例：

这些神经元不只是为单个对象选择。它们还（更弱地）触发相关的刺激，例如巴拉克·奥巴马（Barack Obama）神经元为米歇尔·奥巴马（Michelle Obama）放电，或者早晨神经元为早餐图像而放电。它们也倾向于受到刺激的最大抑制，这些刺激可以以一种非常抽象的方式被视为它们的对立面。

我们应该如何看待这些神经元？从可解释性的角度来看，这些神经元可以被视为“多面神经元”的极端例子，它们对多种不同的情况做出反应。看看神经科学，它们可能听起来像“祖母神经元”，“ 12 但它们的联想性质将它们与许多神经科学家解释该术语的方式区分开来。术语“概念神经元”有时被用来描述具有相似性质的生物神经元，但这种框架可能会鼓励人们过度解释这些人工神经元。相反，作者通常认为这些神经元类似于主题特征的视觉版本，激活我们可能期望在单词嵌入中相似的特征。

[13][14][15]

这些神经元中的许多处理敏感话题，从政治人物到情绪。一些神经元明确代表或与受保护的特征密切相关：年龄、性别、种族、宗教、性取向，有一个 13 残疾和心理健康状况，怀孕和父母状况。 14 这些神经元可能反映了它们所响应的“相关”刺激中的偏见，或者被下游用于实现有偏见的行为。还有少量的人检测器，用于危害人类罪的个人，以及一个对仇恨言论和性内容做出反应的“有毒”神经元。拥有与敏感话题相对应的神经元并不一定意味着网络会受到偏见。你甚至可以想象在某些情况下会有帮助的显式表示：有毒神经元可能会帮助模型将仇恨图像与反驳它们的标题相匹配。但它们是各种可能的偏见的警告信号，研究它们可能有助于我们找到可能较少关注的潜在偏见。 15

CLIP包含大量有趣的神经元。为了进行详细检查，我们将重点关注上面显示的三个“神经元家族”：人神经元，情绪神经元和区域神经元。我们邀请您在显微镜中探索其他产品。

人神经元

本节将讨论代表现在和历史人物的神经元。我们的讨论旨在描述和坦率地说明该模型从其训练的互联网数据中学到了什么，而不是认可它所建立的关联或所讨论的数字，其中包括政治人物和犯下危害人类罪的人。此内容可能会让某些读者感到不安。

为了在互联网上为图像添加字幕，人类依赖于文化知识。如果您尝试为异国他乡的流行图像添加字幕，您很快就会发现您的物体和场景识别技能还不够。如果不认识这项运动，您就无法在体育场为照片添加标题，您甚至可能需要了解特定的球员才能获得正确的标题。如果您不知道谁在说话以及他们在谈论什么，那么政治家和名人讲话的照片就更难配上标题，而这些是互联网上最受欢迎的一些图片。一些公众人物引起了强烈的反应，这可能会影响在线讨论和字幕，而不管其他内容如何。

考虑到这一点，也许该模型在代表特定的公共和历史人物方面投入了大量能力也就不足为奇了——尤其是那些情绪化或煽动性的人物。耶稣基督神经元检测基督教符号，如十字架和荆棘冠冕、耶稣的画作、他的书面名字，特征可视化显示他是一个婴儿在圣母玛利亚的怀抱中。蜘蛛侠神经元认出了蒙面英雄，并知道了他的秘密身份彼得帕克。它还回应了过去半个世纪蜘蛛侠电影和漫画中的英雄和小人的图像、文字和图画。希特勒神经元学会检测他的脸和身体、纳粹党的象征、相关的历史文献以及其他松散相关的概念，如德国食物。特征可视化显示纳粹标志和希特勒似乎在向纳粹敬礼。

任何发短信脸建筑室内的商标自然界姿势

耶稣任何发短信脸建筑室内的商标自然界姿势

希特勒

案例研究：唐纳德·特朗普神经元

该模型为哪些人开发专用神经元是随机的，但似乎与该人在数据集中的患病率相关以及人们对它们的反应强度。我们在每个 CLIP 模型中发现的一个人是唐纳德·特朗普。它强烈地回应了他在各种环境中的形象，包括许多艺术媒介中的肖像和漫画，以及对与他密切合作的人（如迈克·彭斯和史蒂夫·班农）的更弱的激活。它还回应了他的政治符号和信息（例如。“墙”和“让美国再次伟大”帽子）。另一方面，它最*消极地*激活到像Nicky Minaj和Eminem这样的音乐家，像Fortnite这样的视频游戏，像Martin Luther King Jr.这样的民权活动家，以及像彩虹旗这样的LGBT符号。

为了更好地理解这个神经元，我们使用人类标记来估计不同激活水平的几类图像的条件概率。

图2： 为了更深入地了解特朗普神经元，我们收集了大约650张导致它发射不同数量的图像，并手动将它们标记为我们创建的类别。这让我们可以估计标签在给定激活水平上的条件概率。有关详细信息，请参阅附录。由于黑人/LGBT类别仅包含少量图像，因为它们在数据集中不经常出现，因此我们通过进一步的实验验证了它们会导致负面激活当我们为图 17 。在所有类别中，我们看到特朗普神经元的较高激活具有高度选择性，因为超过90%的标准差大于30的图像与唐纳德·特朗普有关。

在为之前的实验标记图像时，很明显神经元为特定的人激活了不同的量。我们可以通过在互联网上搜索特定人物的照片并测量每个人的图像如何使神经元着火来研究这一点。

纳尔逊·曼德拉马丁·路德·金杰夫·贝佐斯史蒂夫·乔布斯希特勒奥巴马特德·克鲁兹希拉里·克林顿史蒂夫·班农迈克·彭斯唐纳德·特朗普纳尔逊·曼德拉马丁·路德·金杰夫·贝佐斯史蒂夫·乔布斯希特勒奥巴马特德·克鲁兹希拉里·克林顿史蒂夫·班农迈克·彭斯唐纳德·特朗普与零激活的标准偏差-15-10-5051015202530354045图3：为了了解特朗普神经元如何对不同的个体做出反应，我们在谷歌图片上搜索了查询“X对着麦克风发表演讲”，以查找不同的个体。我们手工清理了数据，不包括不是个人面部清晰照片的照片。每个人的条形长度以数据集上神经元的标准差显示该人照片的中位数激活，条形图上的范围显示该人照片激活的标准差。

据推测，人神经元也存在于其他模型中，例如面部识别模型。这些神经元的独特之处在于它们对人做出跨模式和协会的反应，将它们置于文化背景下。特别是，我们对神经元的反应如何跟踪与人之间的非正式直觉感到震惊。从这个意义上说，人神经元可以被认为是人联想的景观，人本身只是最高峰。

情绪神经元

本节将讨论代表情绪的神经元，以及“精神疾病”的神经元。我们的讨论旨在描述性和坦率地说明模型从其训练的互联网数据中学到的内容，而不是认可。此内容可能会让某些读者感到不安。

由于某人表情的微小变化可以从根本上改变图片的含义，因此情感内容对于字幕任务至关重要。该模型将数十个神经元专用于此任务，每个神经元代表不同的情绪。

这些情绪神经元不仅对与情绪相关的面部表情做出反应 - 它们是灵活的，对人类和动物，绘画和文本的肢体语言和面部表情做出反应。例如，我们认为是幸福神经元的神经元既对微笑做出反应，也会对“快乐”等词做出反应。即使面部的大部分被遮挡，惊喜神经元也会激活。它回应了像“OMG！”和“WTF”这样的俚语，文本特征可视化会产生类似的震惊和惊讶的词。甚至有一些情感神经元会对唤起情感“氛围”的场景做出反应，例如创意神经元对艺术工作室做出反应。当然，这些神经元只是对与情绪相关的线索做出反应，并不一定与图像中受试者的精神状态相对应。

任何发短信脸建筑室内的商标自然界姿势

惊喜/震惊

除了这些情绪神经元之外，我们还发现哪些神经元对情绪的反应是次要角色，但主要是对其他东西做出反应。我们将在后面的章节中看到，主要对监狱和监禁做出反应的神经元有助于代表诸如“受迫害”之类的情绪。同样，主要检测色情内容的神经元似乎具有代表唤醒的次要功能。对问号反应最强烈的神经元有助于表示“好奇”。

任何发短信脸建筑室内的商标自然界姿势

嵌顿任何发短信脸建筑室内的商标自然界姿势

问号

图4：情绪神经元对各种刺激做出反应：面部表情、肢体语言、单词等。我们可以使用分面特征可视化来查看其中一些不同的分面。特别是，面部刻面显示对应于不同情绪的面部表情，例如微笑、哭泣或睁大眼睛震惊。单击任何神经元以在显微镜中将其打开以查看更多信息，包括数据集示例。

虽然大多数情绪神经元似乎非常抽象，但也有一些神经元只是对特定的身体和面部表情做出反应，比如愚蠢的表情神经元。它最能激活互联网出生的鸭脸表情和和平标志，我们稍后会看到这两个词都出现在最大对应的标题中。

任何发短信脸建筑室内的商标自然界姿势

愚蠢的表情

案例研究：精神疾病神经元

一个不代表单一情绪而是代表高级心理状态类别的神经元是我们概念化为“精神疾病”神经元的单元。当图像包含与消极心理状态相关的单词时，该神经元就会激活（例如。“抑郁”、“焦虑”、“孤独”、“压力”）、与临床心理健康治疗相关的词语（“心理学”、“精神”、“障碍”、“治疗”）或心理健康贬义词（“疯狂”、“心理”）。对于毒品的图像，看起来悲伤或压力的面部表情，以及负面情绪的名称，它也更弱。

任何发短信脸建筑室内的商标自然界姿势

精神疾病

通常，我们不会认为精神疾病是情绪的一个维度。然而，有几件事使这个神经元在情感环境中变得很重要。首先，在其中低档激活中，它代表了常见的负面情绪，如悲伤。其次，像“抑郁”这样的词经常被口语化地用来描述非临床状况。最后，我们将在后面的章节中看到，这个神经元在为情绪配音方面起着重要作用，与其他情绪神经元组成，以区分情绪的“健康”和“不健康”版本。

为了更好地理解这个神经元，我们再次通过激活幅度估计了各种类别的条件概率。最强的积极激活是与精神疾病有关的概念。相反，最强的负面激活对应于锻炼、运动和音乐活动等活动。

图5：为了更深入地了解“精神疾病神经元”，我们收集了导致它发射不同数量的图像，并手动将它们标记为我们创建的类别。这让我们可以估计标签在给定激活水平上的条件概率。有关详细信息，请参阅附录。在标记过程中，我们看不到它使神经元放电的程度。我们看到，最强的激活都属于与低价心理状态相对应的标签。另一方面，许多具有负预ReLU激活的图像是我们通常认为的高价场景，例如宠物照片，旅行照片和/或体育赛事照片。

区域神经元

本节将讨论代表世界各区域的神经元，以及间接的种族。该模型的表示是从互联网上学习的，可能反映了偏见和刻板印象、敏感的区域局势和殖民主义。我们的讨论旨在描述性和坦率地说明模型从其训练的互联网数据中学到的内容，而不是对模型表示或关联的认可。此内容可能会让某些读者感到不安。

从当地的天气和食物，到旅行和移民，再到语言和种族：地理是大量在线话语中重要的隐含或显性背景。暴风雪更有可能在加拿大被讨论。Vegemite更有可能出现在澳大利亚。关于中国的讨论更有可能是用中文。

我们发现CLIP模型发展出响应地理区域的区域神经元。这些神经元可能被视为词嵌入中地理信息的视觉类似物。它们对与特定地区相关的各种形式和方面做出反应：国家和城市名称、建筑、杰出公众人物、最常见种族的面孔、独特的服装、野生动物和当地文字（如果不是罗马字母）。如果显示世界地图，即使没有标签，这些神经元也会选择性地针对地图上的相关区域触发。

区域神经元的规模差异很大，从对应于整个半球的神经元 - 例如，对熊，驼鹿，针叶林和整个世界地图的整个北部三分之一做出反应的北半球神经元 - 到国家的子区域，如美国西海岸。模型将神经元专用于哪些区域似乎是随机的，并且因我们检查的模型而异。

并非所有区域神经元都会在全球比例尺的地图上放电。特别是，为较小的国家或地区编码的神经元（例如。纽约，以色列/巴勒斯坦）可能不会。这意味着在全球地图上可视化行为低估了 CLIP 中存在的区域神经元的绝对数量。使用最活跃的英语单词作为启发式方法，我们估计大约4%的神经元是区域性的。

除了纯区域神经元之外，我们发现许多其他神经元似乎是“次要区域性的”。这些神经元没有区域作为主要焦点，但具有某种地理信息，对于与它们相关的世界地图上的区域，它们很弱。例如，一个为加利福尼亚发射的创业神经元或为北极点燃的冷神经元。其他神经元以看似以美国中心甚至种族主义的方式将概念与世界各区域联系起来：一个对拉丁美洲做出反应的移民神经元，一个对中东做出反应的恐怖主义神经元。

案例研究：非洲神经元

尽管有这些神经元学习以美国为中心的漫画的例子，但在某些领域，该模型似乎比人们担心的要微妙一些，特别是考虑到CLIP只在英语数据上训练。例如，RN50-x4模型不是将整个非洲模糊成一个整体实体，而是为非洲的三个地区开发神经元。这远不如它对许多西方国家的代表那么详细，西方国家有时有个别国家甚至国家次区域的神经元，但仍然让我们感到震惊。

RN50-4x有多个非洲神经元。通过名称激活对国家/地区进行着色建议他们选择不同的地区。中央？南东

在早期的探索中，很快就发现这些神经元比作者“更了解”非洲。例如，南非区域神经元的首批特征可视化之一绘制了文本“Imbewu”，我们了解到这是一部南非电视剧。

我们选择东非神经元进行更仔细的研究，再次使用条件概率图。它对国旗、国名和其他强大的国家协会的火力最强烈。令人惊讶的是，中等强度的激活 - 更常见的神经元 — 分布明显不同，似乎主要与种族有关。也许这是因为种族隐含在所有人物形象中，为一个地区提供了微弱的证据，而像旗帜这样的特征远没有那么频繁，但在它们确实发生时提供了强有力的证据。这是我们仔细研究的第一个神经元，在中等和强激活之间具有明显的制度变化。

图7： 我们标记了400多张图像，这些图像导致对“加纳”一词反应最强烈的神经元在不同的激活水平上触发，而无法获得每个图像在标记时导致神经元放电的程度。有关详细信息，请参阅附录。它对非洲人后裔以及国名等非洲单词的火力最大。ReLU激活前对于与其他国家相关的符号（如特斯拉标志或英国国旗）以及非非洲裔是负面的。它的许多最强的负面激活是针对军用车辆和手枪等武器的。加纳是它反应最强烈的国名，其全球和平指数评级高于大多数非洲国家，也许它学会了这种反联想。

我们还研究了另外两个非洲神经元的激活。我们怀疑它们除了检测不同的国名和国旗之外，还有有趣的差异——否则为什么模型会奉献三个神经元——但我们缺乏文化知识来欣赏它们的微妙之处。

功能属性

到目前为止，我们已经研究了特定的神经元，以了解CLIP模型中存在的特征类型。值得注意的是，在讨论各个功能时可能会遗漏几个属性：

基于图像的词嵌入：尽管是一个视觉模型，但人们可以使用视觉CLIP模型产生“基于图像的单词嵌入”，方法是将单词栅格化到图像中，然后将这些图像输入模型，然后减去单词的平均值。与普通的词嵌入一样，词的最近邻往往在语义上相关。 32 单词算术，例如：
V（Img（“King”）） - V（Img（“Man”）） + V（Img（“Woman”）） = V（Img（“Queen” ))
在某些情况下，如果我们屏蔽非语义词典神经元（例如。“-ing”检测器）。单词和图像的混合算术似乎应该是可能的。

有限的多语言行为：尽管 CLIP 的训练数据被过滤为英语，但许多功能表现出有限的多语言响应能力。例如，“积极”神经元响应英语“谢谢”，法语“Merci”，德语“Danke”和西班牙语“Gracias”的图像，以及英语“祝贺”，德语“Gratulieren”，西班牙语“Felicidades”和印度尼西亚语“Selamat”的图像。正如印度尼西亚语的例子所示，该模型可以识别来自非罗曼语/日耳曼语的一些单词。然而，我们无法找到任何将非拉丁字母中的单词映射到语义含义的模型示例。它可以识别许多脚本（阿拉伯语，中文，日语等），并激活相应的区域神经元，但似乎无法将这些脚本中的单词映射到它们的含义。

偏见：某些类型的偏见似乎嵌入到这些表示中，类似于词嵌入中的经典偏见（例如）。最引人注目的例子可能是种族和宗教偏见。正如我们在讨论区域神经元时提到的，似乎有一个“恐怖主义/伊斯兰”神经元，它对“恐怖主义”、“攻击”、“恐怖”、“害怕”等词的图像以及“伊斯兰”、“安拉”、“穆斯林”等词做出反应。这不仅仅是观察单个神经元的错觉：“恐怖分子”的基于图像的单词嵌入与“穆斯林”的余弦相似度为0.52，这是我们观察到的不包括“恐怖”的单词的最高值。 34 同样，“非法移民”神经元为拉丁美洲国家选择。（我们将在下一节中看到更多偏见的例子。

多语义性和连体神经元：我们的定性经验是，单个神经元比随机方向更易于解释;这反映了以前工作中所做的观察。虽然我们关注的是那些似乎有一个明确定义的概念的神经元，但它们会做出反应，但许多CLIP神经元是“多语义”的，对多个不相关的特征做出反应。不寻常的是，CLIP中的多语义神经元通常在它们响应的不同概念之间具有可疑的联系。例如，我们观察到Phil adelphia/Phil ipines/Philip神经元，Christmas/Ass神经元和Actor/Velociraptor神经元。这些神经元中的概念似乎是“连体的”，在一个方面以肤浅的方式重叠，然后在多个方向上泛化。我们没有排除这些只是巧合的可能性，因为每个概念都有大量的方面可能重叠。但是，如果连体特征真的存在，它们暗示了对多语义性的新的潜在解释。

原文地址：生物神经元中的多模态神经元 (mvrlink.com)