Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion

MindDiffuser: 利用语义和结构扩散从人脑活动中控制图像重建(cvpr2023)

在这里插入图片描述

论文地址:https://arxiv.org/abs/2303.14139

项目地址:https://github.com/ReedOnePeck/MindDiffuser

Abstract

从测量的功能磁共振成像(fMRI)中重建视觉刺激是一项有意义且具有挑战性的任务。先前的研究已经成功地实现了与原始图像相似的结构重建,例如一些自然图像的轮廓和大小。然而,这些重构缺乏明确的语义信息,难以识别。近年来,许多研究利用生成能力较强的多模态预训练模型来重建语义上与原始图像相似的图像。然而,这些图像具有不可控的结构信息,如位置和方向。为了同时解决上述两个问题,我们提出了一个两阶段的图像重建模型,称为MindDiffuser,利用稳定扩散。在第一阶段,将从fMRI解码的VQ-VAE潜在表示和CLIP文本嵌入放入稳定扩散的图像到图像处理中,产生包含语义和结构信息的初步图像。在第二阶段,我们利用从fMRI中解码的低水平CLIP视觉特征作为监督信息,并通过反向传播不断调整第一阶段的两个特征以对齐结构信息。定性和定量分析的结果表明,我们提出的模型在自然场景数据集(NSD)上的重建结果超过了目前最先进的模型。此外,消融实验结果表明,我们的模型的每个分量都是有效的图像重建。

1 Introduction

人类视觉系统具有高效、鲁棒地感知和理解现实世界中复杂视觉刺激的特殊能力,这是目前人工智能系统所无法比拟的。通过神经编码和解码模型来研究大脑不同区域的功能,可以让我们对人类的视觉感知系统有更深入的了解。神经编码是将外界视觉刺激转化为神经信号的过程,而神经解码则是将神经信号与相应的视觉刺激建立对应关系。根据复杂程度和具体目标的不同,后者可分为刺激分类、刺激识别和刺激重建[1]。刺激分类是指使用大脑活动来预测所呈现的刺激的离散对象类别,而刺激识别旨在从一组已知的图像中识别出与给定的大脑活动模式相对应的特定刺激。刺激重建是指从提供的大脑活动中直接生成图像。生成的图像应在形状、位置、方向等具体细节上与相应的图像刺激精确对齐。尽管难度巨大,但刺激重建是实现破译人类大脑工作的最终目标的关键一步。随着复杂的图像重建方法的进步和神经成像数据量的增加,研究人员越来越关注这一方向。

最近有研究表明,深度学习框架与人类视觉系统的分层编码-解码过程具有一定程度的一致性[2] [3] [4]。因此,许多研究都广泛使用深度神经网络(DNN)来重建自然图像。基于之前图像重建模型的结构,我们将其分为优化模型和生成模型。优化后的模型由Shen等人提出的DGN[5]表示,该模型利用从DNN中提取的图像特征作为约束,优化图像生成器的潜在空间,以达到与解码后的DNN特征相似。虽然该方法允许将重建图像的位置、方向和大小与像素空间中的相应图像对齐,但在潜在空间中缺乏图像先验知识意味着从高斯噪声开始的优化可能导致结果不清晰,并且缺乏清晰的语义信息。生成重建模型包括将fMRI解码为VAE、GAN和Diffusion模型等模型的潜在空间,并利用其强大的生成能力重建与原始图像语义相似的图像。虽然这种模式能够快速生成逼真且语义丰富的重建图像,但结果总是缺乏对位置和大小等细节的控制。

在前面讨论的基础上,我们提出了一个两阶段的图像重建模型,该模型解决了上述两种重建范式的问题,从而产生语义相似和结构一致的重建结果。

鉴于各种重建模型采用不同的数据集,我们选择通过利用飞机重建结果来公平地比较结果,这在大多数数据集中都很普遍,并便于直观的比较。图1表明,先前的图像重建模型,如Shen DNN[5]和Shen GAN[5],产生的结果在大小、形状和方向上与原始图像相似,但缺乏识别飞机所需的语义信息。最近的图像重建模型,如Mind Reader[6]和Takagi的[7],通过多模态预训练模型合并文本表示,导致具有正确语义信息的重建。但是,与我们的MindDiffuser相比,他们重建的飞机在形状和姿态等结构信息上无法与原始图像对齐。

在这里插入图片描述

2 Related works

2.1 神经解码和图像重建模型

在Haxby[8]和其他研究人员开创性工作的基础上,近几十年来出现了大量具有重要指导意义的神经解码任务。这些任务可以根据其解码目标分为刺激分类[8] [9] [10] [11] [12]、刺激识别[13] [14] [15] [16]和刺激重建[17]。其中,刺激重建是最具诱惑力和要求的,也是我们研究的重点。

以前的图像重建技术使用线性回归模型来拟合fMRI与人工定义的图像特征[18] [15] [19]。这些方法主要集中于从图像刺激中提取预先建立的低水平特征,如局部图像结构或光栅滤波器特征。这些重建方法得到的结果是模糊的,而且特征很大程度上依赖于人工配置。随着深度学习的出现,深度神经网络在这一领域的使用变得更加普遍。Shen等[5]不断优化生成模型的潜在空间,确保生成图像的DNN特征与解码特征相当。bellie等[20]和Gaziv等[21]采用半监督学习[22]训练编码器-解码器结构重建图像,解决了fMRI刺激对不足的问题。然而,这些模型的重建仅在轮廓和姿态方面与原始图像匹配,不具有可区分的语义信息。Du等人[23]提出了一种多视图重建模型,该模型考虑了fMRI信号与相应刺激之间的统计相关性。该模型采用贝叶斯推理实现精确的重建结果。Du等人[24] [25]提出了一种利用大脑活动的结构信息和视觉特征的分层神经解码框架。该框架通过使用深度神经网络和矩阵变量高斯先验,采用多任务迁移学习,提高了部分自然图像和面部刺激重建的质量。

扫描二维码关注公众号,回复: 15945988 查看本文章

以前的研究主要集中在重建特定类型的刺激,如人脸或手写数字。随着图像生成模型的进步和更充分的脑成像数据的可用性,重建复杂的自然图像已经成为可能。Chen等[26]使用类似于MAE的方法对fMRI数据进行预训练[27],并使用从二维fMRI结构中提取的特征对LDM进行微调[28],以获得重建图像。Ozcelik等[29]和Gu等[30]采用自监督模型提取图像实例特征,然后利用反向传播对噪声和密集信息进行迭代优化。随后,将这三个特征从fMRI中映射出来,放入IC-GAN中[31]进行图像重建。

自引入多模态预训练模型CLIP以来[32],来自文本的语义信息已被用于重建复杂的自然图像。Lin等人[6]使用对比和对抗学习损失训练了一个映射模型,将fMRI与CLIP潜在表征结合起来。

然后在生成阶段将绘制的fMRI送入StyleGAN2[33]。Takagi等[7]通过将fMRI映射到Stable Diffusion的文本特征c和图像特征 z z z,获得了接近原始的重建结果[28]。上述重构模型通过直接包含文本特征或从图像中提取特征,将丰富的语义信息融合到重构结果中。然而,由于在重建过程中没有对生成器施加额外的约束,因此生成图像的质量完全由解码信息决定。因此,重建的结果可能在位置、大小和形状等细节上缺乏精度。

2.2 CLIP用于图像生成

CLIP[32]利用图像-文本对比学习,赋予其表示空间丰富的语义信息,已被广泛用于指导下游的图像生成任务。在这里,我们根据CLIP在下游任务中扮演的不同角色描述以下工作。

基于CLIP表示的前馈图像生成:OpenAI提出了GLIDE[34],用于生成由文本描述引导的图像。GLIDE通过将文本嵌入到U-net中进行噪声预测来实现这一点,并在采样过程中采用基于CLIP的引导。DALL-E2[35]使用先验模型将CLIP文本嵌入转换为相应的图像特征,随后扩散模型利用这些特征生成语义连贯且视觉逼真的图像。Stable Diffusion[28]利用VQ-VAE潜在空间中的CLIP文本嵌入来指导扩散模型生成图像,从而在保证高质量输出的同时提高模型训练和推理速度。

CLIP提取的特征除了直接用于指导图像生成外,还可以作为监督信号,通过反向传播不断地细化图像生成器的潜在向量。该技术支持细粒度和个性化的图像生成和编辑。

由CLIP监督的后向图像优化:StyleCLIP[36]首先通过GAN反演获得给定人脸图像的潜在变量[37]。然后,它在输入文本的CLIP特性的监督下优化潜在变量,产生与CLIP表示空间中的文本对齐的图像。这个优化过程能够生成与输入文本指定的所需样式和内容相匹配的图像。StyleGAN-nada[38]进一步挖掘了CLIP表示空间中的语义信息,实现了跨域图像生成。CLIP-GLaSS[39]计算输入文本与生成图像之间CLIP嵌入的相似度,并使用遗传算法生成与输入最匹配的图像。CLIPasso[40]通过CLIP的视觉分支提取原始图像和生成的简笔画图像的结构和语义信息,将其L2距离作为损失函数,然后通过反向传播对笔画参数进行优化,直至收敛。与CLIPasso类似,我们的MindDiffuser使用从CLIP中提取的底层图像特征来约束重建图像的结构信息。

先前利用2.1中提到的CLIP表示空间的作品(Lin [6], Takagi[7])利用解码后的CLIP特征直接指导图像重建过程。据我们所知,我们提出的MindDiffuser是第一种利用CLIP特征作为监督信息来实现细粒度和可控图像重建的方法。

3 Method

3.1 先决条件

Stable Diffusion:扩散模型[41] [42]代表了一种新的概率生成模型,其在计算机视觉领域的生成能力在某些特定任务中逐渐与gan持平甚至优于gan。扩散模型包括正向扩散过程和反向去噪过程,两者都具有马尔可夫性。在前向扩散过程中,在原始图像中不断加入高斯噪声,直到其完全坍缩为标准高斯噪声。正向扩散过程可表示为 q ( x t ∣ x t − 1 ) = N ^ ( x t ; α t x t − 1 , ( 1 − α t ) I ) q(x_{t}|x_{t-1})=\hat{N}(x_{t};\sqrt{\alpha_{t}}x_{t-1},(1-\alpha_{t})I) q(xtxt1)=N^(xt;αt xt1,(1αt)I),其中t为每次加噪的时间步长。反向去噪过程利用U-Net[43]架构有效拟合在每个时间步长t上添加的噪声。随后,从标准高斯噪声开始,通过顺序去噪和采样生成图像。

在图像生成任务中,传统的扩散模型在大像素空间中执行两个马尔可夫过程,导致大量的计算资源占用。为了解决这个问题,潜扩散模型(Latent Diffusion Models, LDM)[28]采用VQ-VAE[44]编码器将像素空间转换为低维潜空间。随后,在潜在空间中对扩散模型进行训练和生成,利用VQ-V AE解码器获得最终生成的图像。这种方法在保持生成图像质量的同时显著减少了计算资源需求和推理时间。在本文中,我们利用稳定扩散来执行图像重建任务。通过结合交叉注意机制,CLIP文本嵌入被整合到U-Net中,得到与语义信息一致的图像。

3.2 概述

在本节中,我们介绍MindDiffuser,一个用于控制图像重建的两阶段模型。简而言之,在第一阶段中,我们将fMRI解码为CLIP文本嵌入 c c c和VQ-VAE潜在空间中的视觉特征 z z z。这使得由Stable Diffusion生成的初始重建图像能够包含语义信息和细粒度细节,从而解释“图像中包含什么?”在第二阶段,我们将fMRI信号解码为CLIP的底层视觉特征,并在第一阶段通过反向传播不断优化 c c c z z z,使生成的图像在CLIP视觉特征空间中接近ground truth,从而实现对结构信息的控制和解密“图像中的物体在哪里?”

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

虽然我们提出的模型的第一阶段与Takagi等人[7]的方法有相似之处,但我们的主要目标是增强图像重建的可控性。我们提出的模型旨在确保重建图像不仅具有语义相似性,而且保持与原始图像的结构对齐。

3.3 第一阶段

语义信息整合-图像中包含什么?

X ∈ R D x × N X \in \mathbb{R}^{D_x \times N} XRDx×N, Y ∈ R D y × N Y \in \mathbb{R}^{D_y \times N} YRDy×N分别表示训练集中的fMRI活动模式及其对应的视觉刺激。 c ∈ R D c × N , z ∈ ∈ R D z × N , Z C L I P i ∈ R D i × N c\in \mathbb{R}^{D_c \times N}, z∈\in \mathbb{R}^{D_z \times N}, Z^i_{CLIP} \in \mathbb{R}^{D_i \times N} cRDc×N,z∈∈RDz×N,ZCLIPiRDi×N表示从训练集中提取的CLIP文本嵌入、VQ-VAE潜在向量和CLIP第i层的视觉特征。其中,Dj为上述数据的维数,N为训练集的大小。图2 (a)显示了三种线性回归模型的训练过程: f c : X ↦ c , f z : X ↦ z a n d f C L I P i : X ↦ Z C L I P i f_{c}:X\mapsto c,f_{z}:X\mapsto z\mathrm{and}f_{CLIPi}:X\mapsto Z_{CLIP}^{i} fc:Xc,fz:XzandfCLIPi:XZCLIPi使用训练数据集。利用训练好的 f c f_c fc f z f_z fz对需要重构图像的CLIP文本嵌入 c c c和潜在向量 z z z进行解码。随后,将这两个特征输入到图像到图像的Stable Diffusion过程中,如图2 (b)所示。具体来说,解码后的z经历了一个正向扩散过程,如公式1和2所示,从而计算出 z T z_T zT
q ( z t ∣ z t − 1 ) = N ( z t ; α t z t − 1 , ( 1 − α t ) I ) t = 0 , 1 , ⋯ T z T = α T ‾ z + 1 − α T ‾ ϵ a n d z 0 = z \begin{align} q(z_t|z_{t-1})&=\mathcal{N}(z_t;\sqrt{\alpha_t}z_{t-1},(1-\alpha_t)I)&&t=0,1,\cdots T \tag{1} \\ z_T&=\sqrt{\overline{\alpha_T}}z+\sqrt{1-\overline{\alpha_T}}\epsilon&&and&&z_0=z \tag{2} \end{align} q(ztzt1)zT=N(zt;αt zt1,(1αt)I)=αT z+1αT ϵt=0,1,Tandz0=z(1)(2)
在每次反向去噪迭代中,U-Net使用交叉注意将解码的CLIP文本嵌入 c c c整合到 z T z_T zT中,定义如公式3所示。
C r o s s A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d ) Q = W Q i ⋅ ϕ i ( z t ) , K = W K i ⋅ c , V = W V i ⋅ c (3) CrossAttention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}}) \\ Q=W_{Q}^{i}\cdot\phi_{i}(z_{t}),K=W_{K}^{i}\cdot c,V=W_{V}^{i}\cdot c \tag{3} CrossAttention(Q,K,V)=softmax(d QKT)Q=WQiϕi(zt),K=WKic,V=WVic(3)
其中 ϕ i ( z t ) \phi_{i}(z_{t}) ϕi(zt)表示U-Net中间层特征, c c c对应解码后的CLIP文本信息, W Q i , W K i , W V i W_{Q}^{i}, W_{K}^{i}, W_{V}^{i} WQi,WKi,WVi表示预训练的投影矩阵。这样,我们将稳定扩散的优化目标重新表述为公式4。
L S e m a n t i c t = E z t , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t , c , ϕ i ( z t ) ) ∥ 2 2 ] (4) L_{Semantic}^{t}=\mathbb{E}_{z_{t},\epsilon\sim\mathcal{N}(0,1),t}[\|\epsilon-\epsilon_{\theta}(z_{t},t,c,\phi_{i}(z_{t}))\|_{2}^{2}] \tag{4} LSemantict=Ezt,ϵN(0,1),t[ϵϵθ(zt,t,c,ϕi(zt))22](4)
其中 ϵ θ ( ⋅ ) \epsilon_{\theta}(\cdot) ϵθ()是一组去噪函数,通常以U-Net的形式实现。通过此过程生成的图像包含语义信息和细粒度细节。解码后的z首先经历前向扩散过程,这在生成的图像中引入了一定程度的可变性。

3.4 第二阶段

结构信息对齐——图像中的物体在哪里?

在第1阶段,我们使用解码的CLIP文本嵌入 c c c和VQ-VAE潜在向量 z z z来生成包含语义信息的初始重构图像 Y ^ \hat{Y} Y^。CLIP视觉分支,表示为 Φ \Phi Φ,在最后一层编码高级语义信息,在浅层编码低级结构信息,如姿态和位置。为了使重构图像的结构信息与原始图像的结构信息对齐,同时不丢失语义信息,我们提取CLIP图像编码器的浅线性层特征,如图2 (b)所示。然后,我们使用fMRI对每一层对应的CLIP视觉特征进行解码,并计算两者之间的L2距离:
L S t r u c t u r e = ∑ i = 1 ∥ Φ C L I P i ( Y ^ ) − Z C L I P i ∥ 2 2 (5) L_{Structure}=\sum_{i=1}\|\Phi_{CLIP}^{i}(\hat{Y})-Z_{CLIP}^{i}\|_{2}^{2} \tag{5} LStructure=i=1ΦCLIPi(Y^)ZCLIPi22(5)
随后,通过反向传播不断更新第一步解码后的 c c c z z z,以达到控制重构输出的目的。

4 Experiments

4.1 数据集

NSD[45]是目前最大的连接大脑和人工智能的神经成像数据集,由来自8个受试者的密集采样fMRI数据组成。在30-40次MRI扫描中,每个受试者观看了9000-10000个不同的自然场景(重复22000-30000次),使用1.8 mm各向同性分辨率的全脑梯度回声EPI和1.6 s TR进行7T扫描。受试者所看到的图像刺激来自于Common Objects in Context (COCO)[46]数据集,并且可以使用图像刺激的COCO ID提取相应的标题。

为了验证MindDiffuser在不同受试者中的稳定性,我们在NSD中使用来自受试者1、2、5和7的fMRI刺激对进行了实验。每个受试者的训练集包含8859个图像刺激和24980个fMRI试验(每个图像最多有3个试验)。此外,四个被试共有982个图像刺激和2770个fMRI试验。对于多次试验的fMRI数据,我们计算了平均反应。我们实验中使用的数据集的属性总结在表1中。

在这里插入图片描述

4.2 特征解码实验

在图像重建过程中,我们首先利用KamitaniLab开发的FastL2LiR来训练三个不同的线性回归模型,将fMRI数据解码到三个不同的空间:

CLIP文本特征空间

Stable Diffusion使用CLIP文本编码器,其特征空间维度为77×768,其中77表示最大令牌长度,768表示每个令牌的编码维度。为了考虑COCO数据集中典型的标题长度(很少超过15个标记),在实际操作中使用了扁平特征的第一个15×768维度。该空间的特征为重构图像注入了语义信息。

VQ-VAE潜在空间

为了整合更丰富的细节,我们使用VQ-VAE(包含稳定扩散)提取训练集中图像的潜在空间特征(1×4×64×64维数)并将其平面化。随后,fMRI信号被映射到这个潜在空间。图6的实验结果强调了在图像重建中加入细粒度细节的重要性,以准确地将结构信息与原始图像对齐。

CLIP图像特征空间

为了使重构图像的结构信息与相应的ground truth对齐,同时不丢失语义信息,我们选择CLIP的底层视觉特征对重构图像进行控制,如图2所示。我们选择ViT/B-32作为预训练CLIP的主干,并从CLIP视觉分支的多个层(Linear-2、Linear-4、··Linear-12)中提取特征。这些层每个有38400个维度。由于这些低精度特征对解码过程的潜在影响,在正式拟合每层特征之前,我们首先使用5倍交叉验证计算训练集上每个维度的CLIP特征的预测精度(Pearson相关系数)。然后,我们根据预测精度选择前25%的特征,并使用所有训练数据重新拟合这些特征。在测试集上的图像重建过程中,只有这25%的特征被用来引导原始图像和重建图像的对齐。

4.3 解码特征重建图像

4.3.1 我们的重建结果概述

按照图2中的过程,由MindDiffuser重建的一些图像如图3所示。(详细的重建结果见附录A.1。)如图3左侧所示,对语义和结构引导信息进行精确解码,可以近乎完美地重建原始图像,实现基于fMRI对相应图像刺激的可控重建。然而,当仅对结构信息进行正确解码时,重构图像与原始图像有明显差异。例如,两只大象的原始图像可以被重建为两匹马或两个孩子。虽然重建图像在位置和背景方面可能与原始图像对齐,但语义信息丢失。类似地,如果语义信息被准确解码,而结构信息没有被准确解码,如下图所示,可能会生成火车和笔记本电脑的图像,但它们的方向、位置和大小可能与原始图像不一致。

在这里插入图片描述

4.3.2 与最先进模型的比较

为了在语义和结构上有效地将重构输出与原始图像对齐,必须保证两者的高解码精度。为了实现这一目标,我们选择解码精度为0.3或更高的测试集图像,特别关注语义和结构信息的保存。由于利用NSD进行图像重建的现有工作很多尚未完全开源,因此我们自行复制Takagi等人[7]和Ozcelik等人[29]关于NSD的结果,以便与我们的研究结果进行直接比较,如图4所示。

在这里插入图片描述

根据图4,可以观察到与最近的工作相比,我们的方法在NSD上产生的重建结果在语义和结构方面在视觉上更接近于基本事实。这表明我们的方法优于现有的基于NSD的可控图像重建方法。我们只获得了Ozcelik[29]发布的随机版本代码,根据他们的论文,随机版本和密集版本的定量结果是相似的。然而,该模型在NSD上表现不佳。我们推测这可能是因为与之前的通用对象解码(GOD)数据集相比,NSD 包含更复杂的自然场景[16]。仅使用自监督预训练特征提取器SW A V[47]在视觉模态上提取的实例特征可能不包含完整的语义和结构信息,导致即使这些特征的解码精度很高(在测试集上平均精度约为0.6),结果也不令人满意。据观察,虽然Takagi等人[7]和MindDiffuser在没有stage 2的情况下能够获得与原始图像语义相似的重建结果,如飞机、桌子上的植物、海滩上冲浪的人、浴室、滑雪的人,但很明显,这些图像在形状和方向等细节上无法与原始图像对齐。这表明本文第二阶段使用的基于clip的调制可以有效地重建与原始图像在语义和结构上一致的结果。

为了进一步定量比较我们的方法与一些最先进的方法的重建性能,我们利用三个评估指标从语义和结构方面进行比较。我们在CLIP视觉分支的最后一层(512维)使用余弦相似度来度量重建结果与原始图像之间的语义相似度。我们使用SSIM和逐像素相关系数来衡量它们之间的结构相似性。这三个指标的范围从0到1,值越高表示重建结果越好。表2的结果表明,我们的重建在语义和结构上都超越了当前最先进的模型。

在这里插入图片描述

此外,我们进行了两次消融实验,以确认模型第二阶段中细粒度细节 z z z和CLIP监督的重要性。详情请参阅图4及图6。

在这里插入图片描述

4.3.3 跨4个受试者的适应性

由于个体大脑的解剖结构和功能连通性存在差异,因此即使呈现相同的图像刺激,fMRI信号也存在差异。为了验证我们提出的MindDiffuser适应主体间可变性的能力,我们在没有任何额外调整的情况下重建了受试者1、2、5和7的测试图像。结果如图5所示。

在这里插入图片描述

如图5所示,由于fMRI采集过程中主观脑反应的差异和特征解码准确率的差异,相同的图像刺激可能会导致某些被试的重构结果不同,甚至不尽人意。例如,在受试者2中,“桌子上的花”被错误地重构为“桌子和椅子”,在受试者5中,“夕阳下的飞机”不能被重构。然而,对于大多数重建图像,我们的模型在每个选定主题的语义和结构特征方面都与原始图像实现了令人满意的对齐,强调了MindDiffuser有效适应个体差异的能力。

4.3.4 细粒度细节z的重要性

在生成图像重建模型的背景下,Lin[6]和Chen[26]利用解码的语义信息作为指导条件,从StyleGAN-2或LDM等条件生成模型的潜在空间中随机抽取详细信息进行图像重建。值得注意的是,Takagi[7]的工作表明,即使没有足够的细节,单独解码语义信息也可以产生与完整模型相当的结果。此外,作为优化模型的代表,Shen[5]从GAN的潜在空间中随机提取样本细节 z z z,随后使用DNN提取的特征对其进行优化,获得重构结果。这些研究表明高保真的语义信息或结构信息来自即使在缺乏精确细节的情况下,DNN作为监督信号也能产生令人满意的重建结果。在这方面,我们将进行实验调查,以评估我们提出的模型中细粒度细节 z z z的重要性。

在这里插入图片描述

图6说明了向模型提供精确解码的细节 z z z,再加上CLIP视觉特征的指导,在几次迭代之后,产生了与原始图像在语义和结构上一致的重建。相反,如果对细节 z z z进行随机初始化,则模型在优化过程中会迅速陷入次优解,导致结果不理想。具体来说,对于第二幅图像“浴室”的重建,经过180次迭代后,得到的图像反映了原始图像的线条方向,但在颜色和语义上存在很大差异。同样,第三张图像“飞机”的重建,经过180次迭代后,产生了一辆汽车的图像,同时也是一辆汽车,但属于不同的类别。这些发现证实,细粒度细节 z z z不仅控制了重建图像的大小、方向和纹理,而且还构成了语义信息 c c c的补充,促进了第二阶段优化过程的顺利进行。

5 Conclusion

我们提出了一个两阶段的图像重建模型,MindDiffuser,该模型将重建图像的语义和结构信息与NSD上的图像刺激对齐。在第一阶段,我们将fMRI解码为CLIP文本特征 c c c和VQ-VAE潜在特征 z z z,并对z进行前向噪声注入得到 z T z_T zT。然后,我们在反向去噪过程中通过交叉注意融合 z T z_T zT c c c,生成具有语义信息和细粒度细节的初始图像。在第二阶段,我们使用从fMRI中解码的CLIP低级视觉特征作为监督信号,通过反向传播不断调整第一阶段的两个特征,使重建图像的结构信息与原始图像的结构信息对齐。鉴于第一阶段的高解码精度,MindDiffuser在NSD上的定性和定量表现优于一些最先进的模型。此外,我们的实验表明,MindDiffuser能够适应受试者间的变化,在不进行任何额外调整的情况下,对受试者1、2、5和7的图像刺激进行了出色的重建。

Appendix

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/131594538