Reconstructing the Mind’s Eye fMRI-to-Image with Contrastive Learning and Diffusion Priors

重建心灵之眼:对比学习和扩散先验的fMRI-to-Image

在这里插入图片描述

论文地址:https://arxiv.org/abs/2305.18274

项目地址:https://medarc-ai.github.io/mindeye-website/

Abstract

我们提出MindEye,一种新的fMRI-to-image方法来检索和重建从大脑活动中看到的图像。我们的模型包括两个并行子模块,专门用于检索(使用对比学习)和重建(使用扩散先验)。MindEye可以将fMRI大脑活动映射到任何高维多模态潜在空间,如CLIP图像空间,使用生成模型接受来自该潜在空间的嵌入,从而实现图像重建。我们将我们的方法与其他现有方法进行全面比较,使用定性并排比较和定量评估,并表明MindEye在重建和检索任务中都达到了最先进的性能。特别是,即使在高度相似的候选图像中,MindEye也能检索到精确的原始图像,这表明它的大脑嵌入保留了细粒度的图像特定信息。这使我们能够准确地检索图像,甚至从大型数据库,如LAION-5B。我们通过实验证明,MindEye的性能比以前的方法有所提高,这是由于专门用于检索和重建的子模块、改进的训练技术以及具有更多数量级参数的训练模型。此外,我们表明MindEye通过使用单独的自编码器输出的img2img,可以更好地保留重建中的低级图像特征。

1 Introduction

解码来自大脑活动的环境输入和认知状态的问题是神经科学领域的基础,其中改进的计算方法允许进一步了解大脑机制[1]。功能磁共振成像(fMRI)是一种神经成像方法,在该领域取得了重大成功,通过检测血液氧合的变化来测量神经活动。功能磁共振成像解码已经被用于实时临床领域[2],在脑机接口中具有新型读心术应用的潜力。先前的研究通过相对简单的映射(通常是脊回归)将fMRI活动映射到图像生成模型的嵌入中[3-5]。在这里,我们提出了一种新的方法MindEye,它涉及通过大规模多层感知器(mlp)、对比学习和扩散模型进行映射,以实现最先进的图像重建。图1给出了重构的选择样本。

在这里插入图片描述

MindEye学习跨体素(皮质组织的三维立方体)映射fMRI活动的扁平空间模式到预训练CLIP模型的图像嵌入潜在空间[7]。MindEye有一个MLP主干和2个专门用于检索和重建的子模块。检索子模块经过对比训练,并产生“脱节的CLIP fMRI”嵌入,该嵌入与相应的图像嵌入具有高余弦相似性,但大小不同。为了重建图像,我们训练了一个扩散先验[8]来接收MLP主干的输出,并产生对齐的嵌入,适合作为任何接受CLIP图像嵌入的预训练图像生成模型的输入。为了确保我们的重建也匹配原始图像的低级特征(例如,颜色,纹理,空间位置),我们训练了一个单独的编码器,该编码器直接将体素映射到Stable Diffusion的[9]变分自编码器(VAE)的嵌入空间,获得缺乏高级语义内容但在低级图像度量上执行最先进的模糊图像重建。在img2img[10]设置中,将高级“语义”管道与低级“感知”管道相结合,使MindEye能够在低级和高级图像度量中输出最先进的重建。

除了图像重建指标,我们脱节的CLIP fMRI嵌入在图像检索和大脑检索指标上达到了最先进的性能。图像检索是指从给定大脑样本的其他图像池中找到原始看到的图像,而大脑检索是指在给定图像的情况下找到大脑样本。MindEye在图像和大脑检索的NSD测试样本池中找到了精确的(top-1)匹配,准确率均>90%,优于先前的最先进技术[11,4],后者的检索准确率<50%。这些结果表明,MindEye脑嵌入具有细粒度的样本级信号。

我们的主要发现是:(1)用于检索(使用对比学习)和重建(使用扩散先验)的专门子模块使单个模型能够在两个任务中获得最先进的结果,即使目标表现出折衷。(2)映射到参数数量比以前的方法高几个数量级的深度MLP不会产生过拟合,反而直接有利于模型性能。(3)一种新的双向混合对比数据增强方法进一步提高了模型在低样本环境下的性能。(4)通过独立映射到Stable Diffusion的VAE潜空间,可以获得低级图像指标的最新重建。(5) fMRI-to-image检索即使在高度相似的候选图像中也能找到精确的原始图像,这表明细粒度的图像特定信息包含在大脑嵌入中,从而允许检索扩展到像LAION-5B这样的大型数据库,以输出没有生成模型的图像。

2 MindEye

MindEye由两个管道组成(见图2),一个是高级(语义)管道,其中fMRI体素被映射到CLIP ViT-L/14图像空间,另一个是低级(感知)管道,其中体素被映射到VAE的图像嵌入空间。这两个管道都遵循一个共同的结构:一个残差MLP主干,后面跟着两个特定于任务的子模块。对于高级流水线,子模块是MLP投影和扩散先验。对于底层流水线,子模块是一个MLP投影和一个执行4倍上采样的CNN解码器。对于这两个管道,我们观察到训练具有对比损失的投影子模块和具有均方误差(MSE)损失的第二子模块具有最佳性能。

在这里插入图片描述

扫描二维码关注公众号,回复: 15945980 查看本文章

2.1 高级(语义)管道

高级管道是MindEye的核心,因为它将体素映射到CLIP图像空间,并通过预训练的图像生成模型进行馈送。我们将其称为“高级”管道,因为CLIP嵌入本质上更具有语义性,而不是感知性,因为CLIP图像编码器被训练为最大化与文本标题的相似性(颜色和对象位置等低级特征通常不会保留在这些标题中)。MindEye可以在没有底层管道的情况下使用,这有助于在重建过程中更好地保留底层图像特征。

我们的高级管道的MLP主干将扁平体素映射到一个大小为257 × 768的中间空间,对应于CLIP ViT/L-14的最后一个隐藏层(PyTorch模型代码参见附录1)。主干由一个线性层组成,随后是4个残差块和一个最终的线性投影。来自主干的嵌入被馈送到MLP投影和并行扩散先验。整个模型端到端训练,先验得到MSE损失,投影得到双向CLIP损失。投影输出可用于检索任务,扩散先验输出可用于生成模型重建图像。

对比学习:对比学习是一种有效的跨模态学习表征方法,通过最大化正对的余弦相似度而最小化负对的相似度。CLIP[7]是一个多模态对比模型,它将图像和文本标题映射到共享嵌入空间。MindEye经过训练,将功能磁共振成像(fMRI)作为一种额外的方式引入到预训练CLIP模型的嵌入空间,使CLIP图像空间保持冻结,就像使用锁定图像文本调优(LiT)[12]一样。我们使用CLIP损失[7]作为对比目标。这种损失是双向的,有助于改善图像和大脑检索。

最近的研究[13-16]探索了新的数据增强技术,这些技术提供了一些好处,如提高性能、增加鲁棒性和减少训练数据需求。Mixup[13]就是这样一种技术,它通过两个数据点-标签对的凸组合生成合成数据来训练模型[17]。Kim等人[18]介绍了MixCo, MixCo是mixup的扩展,使用了InfoNCE损失,并表明MixCo在半监督设置下提高了分类性能。基于同样的原理,我们将双向CLIP损耗修改为使用MixCo。而Kim等人[18]观察到MixCo为较小的模型提供了最大的性能优势,我们观察到它也有助于低数据状态下的大型模型。

为了将MixCo与CLIP损失结合起来,我们使用从α = β = 0.15的Beta分布中采样的因子λ来混合体素。
x max ⁡ i , k i = λ i ⋅ x i + ( 1 − λ i ) ⋅ x k i , p i ∗ = f ( x min ⁡ i , k i ) , p i = f ( x i ) , t i = CLIP Image ( y i ) (1) x_{\max_{i,k_i}}=\lambda_i\cdot x_i+(1-\lambda_i)\cdot x_{k_i},\\\quad p_i^*=f(x_{\min_{i,k_i}}),\quad p_i=f(x_i),\quad t_i=\text{CLIP}_{\text{Image}}(y_i) \tag{1} xmaxi,ki=λixi+(1λi)xki,pi=f(xmini,ki),pi=f(xi),ti=CLIPImage(yi)(1)
其中 x i x_i xi y i y_i yi分别代表第i个fMRI样本和图像。 k i ∈ [ 1 , N ] k_i \in [1,N] ki[1,N]是第i个数据点的任意混合指标,f表示MLP与投影的组合。 p ∗ p^* p, p和t是L2归一化的。使用MixCo的CLIP损失定义为:
L B M i x C O = − ∑ i = 1 N [ λ i ⋅ log ⁡ ( exp ⁡ ( p i ∗ ⋅ t i τ ) ∑ m = 1 N exp ⁡ ( p i ∗ ⋅ t m τ ) ) + ( 1 − λ i ) ⋅ log ⁡ ( exp ⁡ ( p i ∗ ⋅ t k i τ ) ∑ m = 1 N exp ⁡ ( p i ∗ ⋅ t m τ ) ) ] − ∑ j = 1 N [ λ j ⋅ log ⁡ ( exp ⁡ ( p j ∗ ⋅ t j τ ) ∑ m = 1 N exp ⁡ ( p m ∗ ⋅ t j τ ) ) + ∑ { l ∣ k i = j } ( 1 − λ l ) ⋅ log ⁡ ( exp ⁡ ( p l ∗ ⋅ t j τ ) ∑ m = 1 N exp ⁡ ( p m ∗ ⋅ t j τ ) ) ] (2) \begin{gathered} \mathcal{L}_{\mathrm{BMixCO}}=-\sum_{i=1}^{N}\left[\lambda_{i}\cdot\log\left(\frac{\exp\left(\frac{p_{i}^{*}\cdot t_{i}}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{p_{i}^{*}\cdot t_{m}}{\tau}\right)}\right)+(1-\lambda_{i})\cdot\log\left(\frac{\exp\left(\frac{p_{i}^{*}\cdot t_{k_{i}}}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{p_{i}^{*}\cdot t_{m}}{\tau}\right)}\right)\right] \\ -\sum_{j=1}^{N}\left[\lambda_{j}\cdot\log\left(\frac{\exp\left(\frac{p_{j}^{*}\cdot t_{j}}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{p_{m}^{*}\cdot t_{j}}{\tau}\right)}\right)+\sum_{\{l|k_{i}=j\}}(1-\lambda_{l})\cdot\log\left(\frac{\exp\left(\frac{p_{l}^{*}\cdot t_{j}}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{p_{m}^{*}\cdot t_{j}}{\tau}\right)}\right)\right] \end{gathered} \tag{2} LBMixCO=i=1N λilog m=1Nexp(τpitm)exp(τpiti) +(1λi)log m=1Nexp(τpitm)exp(τpitki) j=1N λjlog m=1Nexp(τpmtj)exp(τpjtj) +{ lki=j}(1λl)log m=1Nexp(τpmtj)exp(τpltj) (2)
我们将这种双向损耗称为BiMixCo。这里τ是超参数,N是批大小。

最近的研究[19,20]表明,在一定的epoch之后停止混合增强可以获得更好的分类性能。根据这些发现,我们停止使用混合,并在训练的三分之一处从硬对比损失切换到软对比损失。这在不损害检索性能的情况下改进了我们的重构(参见表4)。

我们的软对比损失的灵感来自于知识蒸馏[21],作者认为由强大的教师模型产生的软最大概率分布比硬标签对学生来说是一个更好的教学信号。为了生成软标签,我们对一批CLIP图像嵌入进行点积。在CLIP-CLIP和Brain-CLIP矩阵之间计算损失(为简洁起见省略双向分量)如下:
L S o f f C L I P = − ∑ i = 1 N ∑ j = 1 N [ exp ⁡ ( t i ⋅ t j τ ) ∑ m = 1 N exp ⁡ ( t i ⋅ t m τ ) ⋅ log ⁡ ( exp ⁡ ( p i ⋅ t j τ ) ∑ m = 1 N exp ⁡ ( p i ⋅ t m τ ) ) ] (3) \mathcal{L}_{\mathrm{SoffCLIP}}=-\sum_{i=1}^{N}\sum_{j=1}^{N}\left[\frac{\exp\left(\frac{t_i\cdot t_j}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{t_i\cdot t_m}{\tau}\right)}\cdot\log\left(\frac{\exp\left(\frac{p_i\cdot t_j}{\tau}\right)}{\sum_{m=1}^{N}\exp\left(\frac{p_i\cdot t_m}{\tau}\right)}\right)\right] \tag{3} LSoffCLIP=i=1Nj=1N m=1Nexp(τtitm)exp(τtitj)log m=1Nexp(τpitm)exp(τpitj) (3)
扩散先验:使用扩散模型来对齐对比学习模型的输出是受到DALL-E2[8]的启发,其中使用“扩散先验”将CLIP文本嵌入映射到CLIP图像空间,然后使用unCLIP解码器重建图像。我们修改了在GitHub上可用的DALL-E2扩散先验的开源实现(参见附录A.2.1)。我们使用与Ramesh等人[8]相同的先验损失。我们的端到端总损失定义为:
L = L BiMixCo|SoftCLIP + α ⋅ L prior (4) \mathcal{L}=\mathcal{L}_{\text{BiMixCo|SoftCLIP}}+\alpha\cdot\mathcal{L}_{\text{prior}} \tag{4} L=LBiMixCo|SoftCLIP+αLprior(4)
我们使用α = 0.3,并在三分之一的训练周期后从BiMixCo切换到SoftCLIP。我们所有的模型都在单个A100 GPU上进行了240次epoch的训练,批处理大小为32。

扩散先验对于重建至关重要,因为对比学习仅激励CLIP fMRI嵌入匹配相关CLIP图像嵌入的矢量方向。Ramesh等人[8]观察到,这会产生脱节的嵌入。为了纠正这个问题,扩散先验学习以CLIP fMRI嵌入为条件的CLIP图像嵌入的分布。

UMAP[22]在附录A.4中,不相交的CLIP fMRI嵌入图与对齐的CLIP fMRI嵌入图相邻,显示了扩散先验如何解决不相交的嵌入空间问题。我们观察到,通过简单地将MSE损耗添加到表4中的MLP投影中,无法实现先验的作用。这是因为在重建和检索目标之间存在权衡,并且模型无法有效地学习在两者上都表现良好的单个嵌入空间。

2.2 低级(感知)管道

底层管道将体素映射到稳定扩散的VAE的嵌入空间。该管道的输出可以输入到VAE解码器,以产生模糊的图像重建,缺乏高级语义内容,但显示最先进的低级图像指标。我们使用img2img[10]从低级指标方面改进最终的图像重建,对高级指标的损害最小,这样我们就可以从模糊重建的噪声编码开始扩散过程,而不是纯噪声。

低级管道的MLP主干遵循与高级管道相同的体系结构,只是最终输出的大小为(16,16,64)。这些被CNN上采样器上采样到(64,64,4)。MLP投影将主干输出投影到512维空间,其中应用了辅助对比损耗。有关低级管道的更多信息,请参见附录A.2.2。参见附录图7中的模糊重建示例和附录表5,以了解改变成像强度对后续重建指标的影响。

3 Results

在所有实验中,我们使用了自然场景数据集(NSD)[23],这是一个公共功能磁共振成像数据集,包含人类参与者被动观看MS-COCO自然场景的大脑反应[24]。通过使用MS-COCO,该数据集提供了测量的大脑对丰富的自然刺激的反应,使我们能够研究MindEye重建低水平和高水平图像特征的效果。我们使用了与其他NSD重建论文相同的标准化训练/测试分割[3,4,25],为每4名参与者训练特定于受试者的模型。我们对测试集(留下982个测试样本)进行三次相同图像重复的平均,但对训练集(24,980个训练样本)不进行平均,类似于Takagi和Nishimoto[3]。有关NSD和数据预处理的更多信息,请参见附录A.1;单次试验重建见附录A.8。

3.1 图像/大脑检索

图像检索评估揭示了在预测的大脑嵌入中包含的细粒度图像特定信息的水平。例如,如果给模型一打斑马的图片,以及与观看其中一只斑马相对应的大脑样本,模型能正确地找到相应的斑马吗?如果模型能够正确地推断出大脑样本对应于斑马的图像,但不能从各种候选图像中推断出特定的图像,这将表明CLIP fMRI嵌入中保留了类别级别的信息,而不是样本特定的信息。MindEye不仅在这个斑马的例子中取得了成功,而且在982张测试图像中,受试者1在找到确切的原始图像方面的总体准确率达到了93.2%(见图3)。

在这里插入图片描述

虽然我们在图3中使用完整的测试数据集进行检索,但为了将我们的检索性能与其他论文进行比较,我们在300个随机测试样本的批次中平均获得了前1名的性能。对于图像检索,我们在CLIP空间中计算给定大脑样本与来自测试集的随机一批300个图像候选中的每个图像之间的余弦相似性。这一过程对测试集中的982个大脑样本中的每一个都重复进行,我们对所有样本和该过程的30个循环的总体准确性进行平均,以解释批次随机抽样的可变性。如果正确的对应的配对图像样本产生最高的余弦相似性,则每个样本被标记为正确,这样的机会性能将是1/300。对于大脑检索,使用相同的过程,只是图像和大脑样本被翻转,以便目标是从 300 个大脑样本中找到给定图像的相应配对大脑样本。MindEye在图像检索和大脑检索评估上都大大优于类似的模型(见表1)。

在这里插入图片描述

我们可以使用数十亿张候选图像来扩大图像检索的规模。在图3中,我们展示了使用CLIP fMRI嵌入查询LAION-5B数据集[26]的结果。所有50亿张图像的最后一层CLIP ViT-L/14嵌入可以在know.laion.ai上找到。可以通过CLIP检索客户端查询k近邻查找[27]。对于每个测试样本,我们首先使用这种方法检索16个候选图像(使用MindEye的变体,将体素映射到CLIP的最后一层,参见附录a .6)。然后根据与CLIP fMRI嵌入具有最高的CLIP嵌入余弦相似性来选择最佳图像。这种图像检索方法特别适合涉及细粒度分类的任务,并且可以作为不使用生成模型的图像重建的替代方法(评估见表1)。

3.2 fMRI-to-Image重建

MindEye的扩散先验输出是对齐的CLIP fMRI嵌入,可以与任何接受CLIP图像空间潜在信号的预训练图像生成模型一起使用。我们评估了几种模型下MindEye重建的输出,包括Versatile Diffusion[6]、稳定扩散(Image Variations)[28]和拉菲[29,11]。这里我们报告Versatile Diffusion模型的结果,因为它产生了最好的结果,我们在附录A.6中报告了其他模型的结果。我们将我们的重建与图4中其他fmri到图像重建模型的输出进行定性比较,并与表1中其他模型进行定量比较,展示了最先进的MindEye重建。

在这里插入图片描述

对于每个受试者,对于每个测试脑样本,我们从MindEye输出16个CLIP图像嵌入,并将这些嵌入通过V通用扩散的图像变化管道输入。每个大脑样本产生16个图像重建。对于我们的重建,我们使用了带有UniPCMultistep噪声调度的20个去噪时间步[30],并从低级管道(img2img)的带噪输出开始去噪过程。然后,我们通过计算最后一个隐藏层 CLIP 嵌入并选择与不相交的 CLIP fMRI 嵌入具有最高余弦相似度的图像来选择 16 个重建中的最佳重建。这种自动二阶选择受到了DALL-E2[8]的启发,DALL-E2使用了类似的从2个生成的样本中选择最佳样本的过程。

双向识别是指通过对比来衡量原始图像嵌入与配对的大脑嵌入或随机选择的大脑嵌入是否更相似的正确率。比较AlexNet[34] (第二层和第五层)、InceptionV3 [35] (最后池化层)和CLIP (ViT-L/14的最后一层)。我们使用与Ozcelik和V anRullen[4]相同的参数设置。详情请参阅附录A.5。

3.3 消融实验

在本小节中,我们试图解释MindEye性能改进来自何处。为了研究架构变化和训练策略的影响,我们只训练检索管道(没有扩散先验)120个epoch,批大小为300。本节中的所有模型都是在受试者1上进行训练的。带*的表项对应MindEye设置的最终版本。

架构改进:为了研究模型深度和参数数量的影响,我们训练了多个不同大小的MLP(表2)。在映射到CLIP VIT- L/14的最后一个隐藏层的模型中,我们观察到随着残差块的增加,性能有明显的提高趋势。对于2个块,跳跃连接的影响不是太显著,但在4个块时,没有跳跃连接的模型表现明显更差,这表明跳过连接对于训练更深层次的模型很重要。

在这里插入图片描述

我们还展示了与映射到CLIP的最后一层(仅CLS分类token)的4-resblock模型的比较。这个模型的参数少了7倍,而且比所有其他模型都差得多。这表明了两件事:(1)MindEye从大参数计数MLP主干中受益匪浅,即使在NSD数据集的样本约束设置中也不会过拟合;(2)fMRI体素包含关于图像的细粒度信息,使我们能够有效地预测所有257个CLIP图像嵌入,而不仅仅是CLStoken。

训练策略(损失和数据增强):我们观察到,对于InfoNCE, MindEye只在大脑检索方面表现良好(表3)。Lin等人[11]也观察到类似的趋势。我们将此归因于InfoNCE是一个片面的损失,它只针对一个检索目标进行了优化。简单地用CLIP丢失替换InfoNCE可以显著改善图像检索。MixCo增强可以帮助单向和双向损失。

在这里插入图片描述

我们还用SoftCLIP损失显示了训练的效果。SoftCLIP在脑检索中优于硬CLIP丢失,但性能不如BiMixCo。我们的培训制度结合SoftCLIP与BiMixCo提供最佳的图像检索性能。

重建策略:为了证明需要单独的扩散先验,我们训练了一个版本的MindEye,其中对比和MSE损失都应用于MLP主干的输出。我们观察到,该模型在检索指标方面做得很差,在检索和重建目标之间进行权衡,很难学习单个嵌入空间。受最近自监督学习工作的启发[36-39],我们使用一个单独的MLP投影来解耦这些损失,其中MSE损失应用于MLP主干的输出,对比损失应用于投影的输出。这个模型在重建方面稍差,但在检索方面要好得多。最后,我们训练了一个具有扩散先验但没有MLP投影的模型。对MLP主干计算对比损耗,对扩散先验计算MSE损耗。该模型在重建方面与高级MindEye相当,但在检索方面做得更差,进一步证明了权衡。这些模型的重建示例见附录图8。

在这里插入图片描述

4 Related Work

在2000年代,研究人员证明,可以使用线性分类器从fMRI信号中解码视觉信息,如空间位置[40]、方向[41,42]和粗图像类别[43,44]。随着生成对抗网络[45]的引入,更复杂的解码变得可行,研究人员将大脑活动映射到这些模型的潜在空间,以重建手写数字[46]、人脸[47,48]和自然场景[49,5,50]。最近,随着多模态对比模型(如CLIP[7])、扩散模型(如Stable diffusion[9])[51,52]以及新的大规模fMRI数据集[23]的发布,fMRI到图像的重建达到了前所未有的质量水平[4,3,25]。

Lin等[11]通过将体素映射到CLIP空间重构NSD图像(另见Wang等)[53]),并通过微调Lafite[29]GAN (MindEye使用Lafite重建,见附录a .6)提供输出。与MindEye的不同之处在于使用卷积模型,没有投影来分离对比损失和MSE损失,InfoNCE代替CLIP损失,对预训练的GAN进行微调,没有扩散先验,并且映射到CLIP图像和文本空间。Ozcelik和VanRullen[4]使用了具有Versatile Diffusion的低、高层管道[6]。不同之处包括通过岭回归映射到CLIP空间,没有对比学习或扩散先验,以及映射到VDVAE进行低级重建[54]。Gu等人[25]采用了低、高层管道,并在Ozcelik等人[5]的基础上进行了IC-GAN重建[55];它们没有将体素平坦化,并使用基于表面的卷积网络映射到SwAV[33]特征。Takagi和Nishimoto[3]使用岭回归映射到Stable Diffusion potential和CLIP text potential,对不同的组件使用不同的体素选择。总体而言,MindEye在使用重建和检索子模块,具有9.4亿个参数的深层MLP主干以及在脑和图像模式之间更准确翻译的扩散先验方面是独一无二的。

5 Conclusions

我们提出了MindEye,一种新颖的心理解码方法,可以实现最先进的核磁共振成像机器中呈现给人类的自然场景的重建。由于使用了高级和低级混合的管道,这些重建保留了与原始图像的语义和感知相似性。基于对比的检索和基于扩散的重建的专用子模块的新颖使用允许MindEye并行学习两个任务的映射。MindEye可以从一组近1000张可能的图像(其中许多容易混淆,见图3)中选择出地面真实图像,准确率>90%,这表明大脑嵌入中包含了细粒度的图像特定信号。当原始图像未知时,也可以通过查询大型图像数据库(如LAION-5B)来使用MindEye检索。扩散先验子模块允许将脑嵌入准确地翻译到预训练的CLIP空间中,这样任何接受CLIP图像嵌入的模型都可以提供无需微调的CLIP fMRI嵌入。这种灵活性表明,随着更新,更强大的图像生成模型的发布,MindEye重建将继续改进。

隐私问题和社会利益:从大脑活动中准确重建感知的能力引发了有关更广泛的社会影响的问题。例如,在不训练新模型的情况下,应该可以将当前的重建模型从感知推广到心理意象[56-59]。然而,目前的模型不具备跨主体解码的能力,每个NSD参与者在MRI机器上花费了长达40小时的时间来获取足够的训练数据。此外,非侵入性神经成像方法通常需要依从性,因为参与者可以很容易地通过移动头部或思考不相关的信息来抵制解码[60]。MindEye也仅限于MS-COCO这样的自然场景;对于其他图像分布,将需要额外的数据收集和专门的生成模型。虽然通过非侵入性神经成像进行的高质量图像重建目前还不能应用于现实世界,但技术在不断进步,重要的是要仔细保护大脑数据,并且收集这些数据的公司在使用过程中要透明。

大脑活动的图像重建可以带来各种潜在的社会效益。由于精神状态、神经状况等原因,重建可能会有系统的扭曲。这可能会使新的临床诊断和评估方法成为可能。例如,患有重度抑郁症的患者可能会产生重构,其中图像的情感消极方面更为突出[61]。MindEye的研究结果还表明,如果采用实时功能磁共振成像(fMRI)分析[63]或非功能磁共振成像(fMRI)神经成像模式,可以通过细粒度视觉交流改善闭锁(假性昏迷)患者的交流[62],以及脑机接口性能。

6 Open Research: 100% Transparent Volunteer-Driven Science

MindEye是通过MedARC Discord服务器上的志愿者贡献公开开发的。在项目的整个生命周期中,源代码始终可以通过公共GitHub存储库访问。研究讨论通过公共Discord频道进行,每周的视频电话会议被记录下来并公开分享。我们继续向全球发出邀请,为MedARC读心实验室项目做出贡献,以培养一个由来自不同背景、拥有广泛专业知识的成员组成的国际多元化、志愿者驱动的研究团队。我们认为,像这样的完全透明的开放研究计划,以及其他像EleutherAI、LAION、OpenBioML和ML Collective这样的计划,可以重新定义传统的科学研究框架,通过利用众包的集体智慧和社区协作,使机器学习和医学研究的进入民主化。

7 Acknowledgements

8 Author Contributions

Appendix

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/131594609