（论文加源码）基于DEAP和MABHOB数据集的二分类脑电情绪识别（pytorch深度神经网络（DNN）和卷积神经网络（CNN））

该领域最近的研究证实了这一假设，结果表明深度神经模型优于传统技术。然而，许多这样的研究已经证明自己很难甚至不可能复制，并且依赖于单个数据集来测试他们的模型。一些研究，如[1]，报告了关于这个问题的惊人数据：平均而言，脑电深度学习的研究没有公开使用的数据集（50%的时间）或模型的代码（90%），再现性的困难通常很难做到（90%）。

本研究的第一个目标是重现步骤，并获得与[2]中报道的具有类似性能的预测因子。在这项研究中，训练了两个神经网络模型，即简单的深度神经网络（DNN）和卷积神经网络（CNN），以从EEG数据中对情绪进行分类。所使用的数据集是DEAP[3]，它是情感计算应用程序的著名基准数据库。这项研究的重点是根据罗素提出的效价和唤醒这两个连续维度来预测情绪状态。特别是，重点是效价和唤醒的二元和三类分类，而在本研究中只考虑了二元分类。

尽管严格遵循了[2]中描述的所有步骤，但我们的模型精度远未达到报告的精度，这导致了他们的论文中省略了一些数据预处理步骤的结论。

本研究的另一个目的是对不同的模型（特别是DNN和CNN）进行统计比较，以了解两者之间是否存在显著差异。此外，这些模型已经在两个用效价唤醒标签注释的EEG数据集上进行了测试，即DEAP和MAHNOB，以找出相同的架构是否可以在这两个领域都很好地工作。

结果表明，在DEAP上训练和评估的模型往往比在MAHNOB上训练和评价的模型表现更好，尽管这可能是因为两个数据集之间的大小不同。一般来说，已经发现这两种模型在DEAP和MAHNOB上也能够以相似的性能执行。

还使用McNemar检验和5x2cv配对t检验，在两个数据集上对DNN和CNN模型进行了比较。正如[5]所指出的，之所以选择这些测试，是因为它们的I型误差很低，统计能力也不错，而且它们是当今事实上的标准。虽然McNemar的测试无法发现模型之间的任何显著差异，但5x2cv测试更强大，能够表明CNN模型在统计上优于DNN模型。

本报告的结构如下。第2节总结了[2]的预处理步骤、方法和结果，还讨论了我们能够复制多少论文。第3节描述了数据集和应用于每一个数据集的预处理步骤，而第4节详细介绍了所使用的神经架构、相对超参数和训练过程。然后，第5节包含了结果摘要和统计测试，用于模型和数据集之间的比较。最后，第6节详细阐述了关于拟议目标的研究结果。该报告由一个小附录完成，可作为参考，轻松浏览所提供的模型和实验的源代码。

2 相关工作

激发这项研究的论文是[2]，由Tripathi等人于2017年发表。作者使用简单的神经网络模型从脑电图数据中预测效价和唤醒。预测效价唤醒的问题被定义为一个分类问题，特别是他们测试了二类和三类分类。对于二元分类，低于5的价态唤醒值被认为是低激活，而高于5的值则被认为是高激活。

所使用的数据来自DEAP数据集的预处理版本[6]。然后，为了使用合理的计算资源进行训练，他们对数据集进行了处理，以降低脑电数据的维度，将每个脑电试验分为多个批次，并使用平均值、标准差、最小值、最大值等统计值对每个批次进行汇总。

所使用的两个模型是基本的深度神经网络。第一种是简单的4层神经网络，由全连接层组成，另一种是具有2个卷积层、一个最大池化层和2个全连接层的卷积神经网络。

然后，本文报告了DNN和CNN使用不同的超参数配置通过32倍交叉验证获得的结果。DNN模型在效价和唤醒方面的准确率分别达到75.8%和73.1%，而CNN模型的准确率达到了令人印象深刻的81.4%和73.4%。

2.1 相关作品的再现性

本节讨论了我们能够从[2]中复制的内容。由于再现的结果并不令人满意，因此对预处理程序、模型架构和超参数进行了一些更改。出于这个原因，本节被放在第3节和第4节之前，这两节描述了用于本研究的最终数据集预处理步骤和模型

尽管该研究的代码和数据尚未公开，但复制相同的预处理步骤和模型并不是一个挑战，因为数据处理很简单，神经模型也很基本。然而，经过训练的预测因子无法从脑电图数据中学习：模型要么拟合不足，要么拟合过度，但他们没有发现一般的模式。

如第3节所述，通过标准化数据集，模型能够从数据中学习一些模式，从而缓解了这个问题。[2]中没有明确引用标准化步骤，但这是一个常见的步骤，可以声称这是一种隐含的步骤。

然而，即使在标准化之后，所得模型的准确度也远未达到[2]中所述的准确度，在某些训练/测试拆分中达到了80%的最大值，但平均准确度约为60%，而复制研究的平均准确度为75%。第5.1节中报告的结果，尽管它们基于略微不同的超参数选择和模型架构，但与通过精确复制论文获得的结果几乎相同，因此它们可以用作将预期精度与实际获得精度进行比较的指标。

由于训练过程和模型架构与其他领域中使用的标准神经网络没有什么不同，因此问题可能依赖于数据。已经尝试了不同类型的标准化（每个通道、每个试验、每个参与者、全局；在降维之后或之前），但没有获得准确性的提高。因此，[2]的作者很可能使用了DEAP的自定义预处理版本，尽管他们从未明确提到执行了其他预处理过程。

在无法再现[2]的结果后，做出了一些与该研究不同的选择：例如，只使用32个EEG通道，而不是全部40个也包含其他生理信号的通道，以便在DEAP和MAHNOB中具有完全相同的一组特征。模型架构和超参数也进行了轻微修改。数据集和模型的详细描述可以在第3节和第4节中找到。

3 数据集

本研究选择了DEAP和MAHNOB数据集，因为它们都包含EEG数据和效价唤醒注释。Valence和唤醒注释基于Russels量表，该量表在情感计算中被广泛使用。使用Russels的效价唤醒量表，每个情绪状态都是2D平面上的一个点，效价和唤醒分别是横轴和纵轴（见图1）。因此，效价和唤醒的结合会产生一种特定的情绪。特别是，效价可以在令人不快和愉快之间变化，唤醒可以在不活跃或活跃之间变化。

3.1 DEAP

DEAP[3]是2014年发布的一个用于情绪分析的数据集。它是情感计算领域最大的公开数据集之一，还包含各种不同的生理和视频信号。

DEAP数据集由两部分组成：

1）一个由120个一分钟音乐视频组成的数据库，每一个视频由14-16名志愿者根据效价、唤醒度和主导度进行评分。

2） 40个以上音乐视频的子集，每个视频具有32个参与者中每个参与者的相应EEG和生理信号。与第一部分一样，每个视频都是根据效价、唤醒和支配维度进行评分的。

为了本报告的目的，只使用了DEAP数据集的第二部分，其中包含EEG信号。

脑电信号是使用Biosemi ActiveTwo设备收集的，该设备记录了32个具有可配置采样率的脑电通道。DEAP是在512Hz下收集的，但数据集的创建者也提供了EEG信号的预处理版本，下采样到128Hz，并应用了频率滤波器和其他有用的预处理步骤。

特别地，对于32个参与者中的每一个，存在以下预处理的信息：

•数据：一个40 x 40 x 8064的阵列，包含40个频道中每个频道和40个音乐视频中每个频道的8064个录音。每个视频每个频道有8064个录音，因为试验时间为63秒（3秒预审基线+60秒试验），采样率为128Hz（63 x 128=8064）。

•标签：一个40 x 4的数组，包含40个音乐视频中每个视频的效价、唤醒、支配和链接的注释。

这些经过预处理的信息又被再次处理，如第3.3节所述。

3.2 MAHNOB

MAHNOB[4]是2012年发布的情感识别数据集。它是一个多模式数据集，提供音频、视频和生理信号，以及眼睛凝视数据。所有的数据都是关于效价和唤醒情感维度的同步和注释。已经进行了四种不同类型的实验：1）在第一种类型的实验中，向参与者展示了一段视频，参与者必须注释他们对视频刺激的效价和唤醒水平。2）在其他三种类型的实验中，在屏幕底部放置了一个标签：该标签可能与放映的电影有关，也不可能与之有关。在这种情况下，参与者被要求对标签与视频的相关性进行评分。为了这份报告，只使用了第一类实验的数据。使用用于收集DEAP数据集的相同设备Biosemi ActiveTwo记录了EEG信号。因此，EEG信号也有32个通道，但MAHNOB是在256Hz而不是512Hz下采集的。与DEAP相反，MAHNOB不提供数据集的预处理版本，而是提供原始收集的文件，这些文件是EEG信号的.bdf格式。为了处理这些数据，有必要执行比DEAP更多的预处理步骤，如第3.3节所述。

3.3 数据集预处理

DEAP和MAHNOB的数据都经过了预处理。以下两小节详细解释了应用于这两个数据集的预处理步骤。

3.3.1 DEAP预处理

数据维度已经降低。40个通道已被削减至32个，仅保留EEG信号，每个通道的8064个读数已减少至99个值。

为了执行[2]所做的后一种处理，8064份记录被分为10批，每组约807份读数。然后，对每个批次提取以下统计值：平均值、中位数、最大值、最小值、标准差、方差、范围、偏度和峰度，每个批次产生9个值（10个批次产生90个值）。然后，对于整个8064读数计算相同的值，对于总共99个值产生9个附加值。

然后，使用以下公式，在示例的基础上对这些汇总值进行标准化，得到0的平均值和1的标准偏差：

其中X是整个32x99示例，X i，j是第i个通道的第j个读数的值.

3.3.2 MAHNOB预处理

该数据集提供.bdf格式的原始脑电图数据，这些数据是用Biosemi ActiveTwo设备收集的。由于这些数据没有经过预处理，因此必须做一些额外的工作。为了处理原始EEG信号，已经使用了专门用于处理和可视化人类神经生理学数据的MNE Python库[8].

如[6]所述，在DEAP数据集的官方预处理版本上应用了相同的预处理步骤。特别是，EEG信号被参考到通道“Cz”，这是一个常见的参考通道，甚至在Biosemi常见问题解答[9]中也有建议。应用了4-45Hz带通滤波器，但实际效果较差，因此将其移除。此外，由于MAHNOB不提供每个会话固定数量的记录，并且还包含实验前后30秒的记录，因此从试验中期提取了所需的记录。

然后，应用了与DEAP相同的预处理步骤（在第3.3.1节中解释），只做了一个小的调整：考虑了16128（8064 x 2）读数，而不是8064，预处理批次大小也增加了一倍，因为MAHNOB数据集提供了以256Hz收集的原始数据，而DEAP提供了128Hz下采样版本的数据。通过这种方式，批次所覆盖的时间窗口对于两个数据集是相同的。

3.3.3 预处理数据集摘要

在前几节中解释的预处理步骤之后，两个数据集都包含具有相同形状的数据，如表1所示。

表1：预处理步骤后的数据集大小和数据形状。数据包含32个通道，每个通道有99个记录，而标签包含2个值（效价和唤醒）

执行这些处理步骤的脚本在项目的存储库中分别以prepare deap.py和prepare mahnob.py的名称提供。

这两个数据集都被分为训练集和测试集，DEAP和MAHNOB的分割比分别为（1180,100）和（460,86）。不幸的是，原始MAHNOB数据集包含1183个会话，但其中只有546个会话被标注了效价和唤醒，从而产生了一个对于当前用例来说相当小的数据集.

4 模型

本研究采用了两种不同的神经网络架构：具有完全连接层的深度神经网络（DNN）和卷积神经网络（CNN），它们取自[2]，只做了一些小的修改。这两个模型都是使用Python和PyTorch[10]开发的，源代码可以在scripts/nn/models.py中找到。

以下小节详细解释了这些模型中的每一个以及训练技术。

4.1深度神经网络（DNN）

DNN模型是一个具有3个隐藏层的深度神经网络。该体系结构的近似图形方案如图2所示，而每一层的确切细节如表2所示。

图2:DNN架构。所描绘的神经元的数量仅用于表示，每层下方都报告了神经元的真实数量。

表2：深度神经网络（DNN）架构

ReLU激活函数在每个密集层（除了最后一层）之后使用，以将非线性引入模型，而sigmoid函数在最后一层之后应用，以将输出压缩到区间[0，1]。由于在本文中，效价/唤醒分类被视为一个二元分类问题（低或高），[0，1]中的值的单个输出神经元表示网络推断的输入信号指高价值/唤醒情绪状态的概率。

为了避免过度拟合，由于可用于训练的数据量很小，因此大量使用了dropout技术。

网络的所有权重都用Xavier正态方法[11]初始化，而所有偏差都用值0初始化。

表3中报告了用于训练的超参数、优化器和损失函数。这两个数据集之间略有不同.

表3：超参数、损失函数、DNN训练程序的优化器。BCE = Binary Cross Entropy；RMSProp = Root Mean Squared Propagation(均方根）。

4.2 卷积神经网络（CNN）

CNN模型利用卷积层，将数据视为形状为32 x 99的二维输入。图3描述了体系结构，表4详细描述了每一层。

简而言之，该模型由两个卷积层组成，然后是最大池化层，最后是两个完全连接的层。卷积层将输入视为2D图像，通过卷积操作应用3x3滤波器。这种类型的层主要用于涉及图像的任务中。最大池化层用于减少数据的空间维度，在图像上滑动一个2x2的窗口，该窗口被减少到一个值：具有最高激活的神经元的值。最大池化减少了图像的空间维度，从而减少了最终完全连接层中所需的参数数量，并有助于网络避免过度拟合。

与DNN模型一样，CNN权重使用Xavier的正常技术进行初始化，偏差设置为0。

表5中报告了用于训练的超参数、优化器和损失函数。这两个数据集之间略有不同。

表5：CNN训练过程中的超参数、损失函数、优化器。BCE = Binary Cross Entropy（二元交叉）; SGD = Stochastic Gradient Descent.（随机梯度下降）

5 结果分析

本节分为多个小节。

第5.1节侧重于将获得的结果与再现研究[2]的预期结果进行比较，以及DEAP和MAHNOB模型性能之间的差异。

另一方面，第5.2节描述了为了将DNN和CNN模型相互比较而进行的统计测试，目的是发现这两个模型之间是否存在显著差异。

最后，第5.3节专门介绍了唤醒分类模型的性能。

5.1 数据集之间的结果分析

评估模型的第一种方式是最简单的一种。如第3.3节所述，每个数据集被分为两个子集：训练部分和测试部分。对于这个实验，模型已经在数据集的训练部分上进行了训练，并在相应数据集的测试集上进行了测试。

二元价态分类的结果可以在表6中找到。这些特定的结果指的是在训练过程中获得的最佳模型。

表6: DNN和CNN模型在DEAP和MAHNOB数据集上进行价值分类的结果。置信区间指的是95%的显著性水平，是通过将测试集评价的二项分布近似为高斯分布来计算的。脚本 confidence-intervals.py 包含用于计算的代码。

从这些结果来看，通常情况下，模型在DEAP上的表现要好于MAHNOB。MAHNOB无疑是造成这种情况的一个因素

数据集的例子数量不到DEAP的一半，这使得模型更难训练，也更容易过度拟合。从表6可以看出，DNN模型在两个数据集上似乎都优于CNN模型，但在DEAP上尤其如此；无论如何，这种非正式的观察在第5.2节中受到了质疑，该节对这两个模型进行了统计比较。

还使用K折叠交叉验证对模型进行了评估。对于这种技术，数据集被划分为相同大小的K个折叠（如果可能的话），然后，依次将每个折叠用作测试集，而数据集的其余部分用作训练集。因此，对K个模型进行训练并评估其准确性，因此K次交叉验证的最终报告准确性是这些准确性的平均值。

DEAP的32倍交叉验证和MAHNOB的6倍交叉验证结果如表7所示。

表7:DEAP和MAHNOB上DNN和CNN的K倍交叉验证结果。DEAP运行使用了32次折叠，而MAHNOB运行使用了6次折叠。复制这个实验的脚本可以在名称kfold cross-validation.py下找到。

使用K-fold交叉验证发现的准确性远低于使用固定训练/测试分割发现的准确性。因此，可以说，模型存在高方差误差，即其性能与特定的训练和提供给它们的测试集高度相关。对于表6的结果，在数据集上操作的训练/测试分割很可能是“幸运”的分割，偶然产生了高精度。

在K折叠交叉验证过程中获得的特定折叠精度也证实了高方差猜想。例如，在DEAP上DNN模型的K-fold运行中，fold准确率从43%到78%不等，这表明不同的数据集分割如何从根本上改变准确率结果。MAHNOB也观察到了同样的行为，尽管程度不那么极端。

DEAP的K倍结果可以与[2]中报道的结果进行比较，因为该研究还使用了32倍交叉验证作为评估技术。DNN和CNN的准确率分别为75%和81%，而我们的准确率为58%和59%。准确性上的差距是巨大的，尽管本研究中使用的数据集和模型与[2]中的不同，但使用[2]中相同的精确数据预处理步骤和模型架构，已经获得了与表7中的结果非常相似的结果，如第2.1节所述

K-fold结果也证实了之前的结果，即两个模型在DEAP上的表现都比MAHNOB好。另一个有趣的观察结果是，CNN模型在两个数据集上都略优于DNN模型，而当在单个训练/测试分割上进行评估时，DNN模型能够达到更高的最大精度。

5.2 比较模型的统计测试

为了简单起见，所有的统计测试都是对价态预测模型进行的。然而，根据第5.3节的结果，我们认为唤醒模型的统计测试结果相似

5.2.1 McNemar’s试验

采用McNemar检验是为了检验DNN和CNN模型的性能之间是否存在统计学上的显著差异。为了进行该测试，使用了表6中报告结果的预测因子，即在DEAP和MAHNOB的默认训练/测试分割上训练的预测因子。本节中介绍的重现McNemar测试的脚本是McNemar-test.py McNemar的测试工作如下[5]：要比较的预测因子，在这种情况下是f DNN和f CNN，根据测试集进行评估，同时构建以下列联表：

其中n 00是测试集中被两个预测器错误分类的样本数量，n 01是被f DNN错误分类但没有被f CNN错误分类的样品数量，n 10是被f CNN但没有被fDNN错误归类的样品数量和n 11是被两个预测因子正确分类的样品数量。因此，n00+n01+n10+n11等于测试集中的示例数。

McNemar检验的零假设是，两个预测因子具有相同的错误率，即n 01=n 10。该测试使用拟合良好的卡方检验将n01和n10的预期计数与实际获得的计数进行比较。

在实践中，以下McNemar检验统计量大于 $X_{1,0.95}^{2}=3.841$ ，概率小于5%：

因此，在这种情况下，零假设可以被自信地拒绝，即这两个预测因子在所选择的训练集和测试集上具有显著不同的性能。

使用在DEAP上训练的DNN和CNN模型获得的接触表如下：

并且得到的统计量是0.487，这不足以自信地拒绝零假设。因此，尽管如第5节所述，DNN和CNN预测因子具有不同的性能，但McNemar检验表明我们应该接受零假设，即这两个预测因子没有显著不同的性能。

对于MAHNOB的预测因素，已获得以下列联表：

即使不进行任何计算，也可以看出n01和n10几乎相同，因此，在这种情况下，也可以说，根据McNemar的测试，这两个预测因子具有基本相同的性能。

5.2.2 5x2cv配对t试验

虽然McNemar的测试是关于两个预测器的比较（其中预测器被认为是运行学习算法的结果，即结果模型），但5x2cv测试比较了两个学习算法。因此，为了进行这项测试，没有必要使用第5节中给出的预训练模型，就像McNemar的测试一样。

5x2cv配对t检验是一种基于5次重复2次交叉验证的统计检验，旨在发现两种学习算法之间是否存在显著的性能差异[5]。该测试显示出较低的I型误差，尽管没有McNemar的测试那么低。另一方面，5x2cv测试的功率高于McNemar的，即当差异真正存在时，该测试更善于检测差异。

5x2cv测试的一大缺点是计算成本很高，是McNemar测试的十倍。Dieterich在[5]中建议，在计算上可行的情况下，使用5x2cv而不是McNemar，幸运的是，这项研究的数据和模型就是这样。

测试工作如下。进行了5次2倍交叉验证的迭代。在每次迭代中，数据被划分为两个集合，S1和S2，然后两个学习算法A和B都首先在S1上训练，然后在S2上测试，反之亦然。结果，获得了四个误差估计： $p_{A}^{(1)}$ ， $p_{B}^{(1)}$ ， $p_{B}^{(2)}$ 和 $p_{A}^{(2)}$ 。对于每个折叠，估计的差异可以计算如下： $p^{(1)}$ = $p_{A}^{(1)}$ - $p_{B}^{(1)}$ 和 $p^{2}$ = $p_{A}^{(2)}$ - $p_{B}^{(2)}$ 。那么，估计方差为： $s^{2}$ = （ $p^{(1)}$ - $p\bar{}$ ） $^{2}$ 。由于对于每次迭代重复该计算，因此对于i＝1，......，5，我们得到 $s_{i}^{2}$ .然后，可以如下计算测试统计量：

在零假设下， $t\tilde{}$ 遵循具有5个自由度的t分布。因此，通过将alpha设置为0.05，如果t>2.571或t<−2.571，则可以拒绝零假设.

5x2cv测试已用于比较DEAP和MAHNOB上的DNN和CNN模型。这些测试使用了第4.1节和第4.2节中报告的相同架构和超参数，除了为了满足硬件限制而减少到150个时期的数量。可以在名称5x2cv-test.py下找到重现这些结果的脚本。

在DEAP上，得到的统计数据为-2.502，非常接近-2.571，即95%置信度拒绝零假设的阈值。对于稍高的阿尔法值，例如0.06，可以拒绝零假设，这意味着两种比较的学习算法之间可能存在统计学上显著的差异。

令人惊讶的是，虽然在第5节表6的结果中，DNN网络能够达到比CNN更高的精度，但在这种情况下，DNN和CNN两个模型的平均精度分别为54.3%和57.2%，因此CNN模型优于DNN。请注意，2倍交叉验证的精度比第5节中报告的精度差，因为在这种情况下训练集要小得多，这可能会导致过拟合。

另一方面，在MAHNOB上，通过测试计算的t统计量为0.306，表明两个模型在该数据集上的表现相似。

5.3 Arousa分类结果

目前的研究主要集中在效价分类上，但也进行了一些关于唤醒分类的实验。具体而言，还对其进行了K折叠交叉验证，得出了表8的结果。

表8: DNN和CNN在DEAP和MAHNOB上对唤醒二元分类进行K-fold交叉验证的结果。DEAP运行使用了32次折叠，而MAHNOB运行使用了6次折叠。

这些结果与价态分类的结果一致，突出表明CNN模型似乎略优于DNN模型。它们也与[2]中报告的结果一致，因为它们也显示出在价态分类方面的准确性略有下降。

6 结论

在这项工作中，我们首先试图复制另一篇论文[2]的结果，但我们无法做到，因为模型的精度远低于复制论文中报道的精度。

然而，研究发现，两个测试模型都能够在DEAP和MAHNOB上执行类似的操作，这意味着它们已经被证明是来自EEG的价态唤醒的非常稳健的分类器，可能可以在其他基于EEG的数据集发生小到没有变化的情况下使用。由于这些结果是用本研究中描述的基本和通用神经网络模型获得的，因此有理由认为，更特别和复杂的神经结构可能在EEG的情绪分类方面表现更好。

此外，从统计的角度来看，CNN架构比DNN模型要好得多，至少在DEAP上是这样。这一结果很重要，因为与DNN架构相比，未来的研究可能会从不同的CNN架构的实验中受益更多。

代码解析部分在个人主页：

（论文加源码）基于DEAP和MABHOB数据集的二分类脑电情绪识别（pytorch深度神经网络（DNN）和卷积神经网络（CNN））代码解析

论文和源码见个人主页：

https://download.csdn.net/download/qq_45874683/87667147

论文加源码）基于DEAP和MABHOB数据集的二分类脑电情绪识别（pytorch深度神经网络（DNN）和卷积神经网络（CNN）