(論文とソースコード) DEAP および MABHOB データセット (pytorch ディープ ニューラル ネットワーク (DNN) および畳み込みニューラル ネットワーク (CNN)) に基づく 2 クラスの EEG 感情認識

この論文は2021年にトップジャーナルに掲載されました。(pytorch フレームワーク)

コード解析部分は個人のホームページにあります。

https://blog.csdn.net/qq_45874683/article/details/130007976?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22 %3A%22130007976%22%2C%22ソース%22%3A%22qq_45874683%22%7D

(論文とソースコード) DEAP および MABHOB データセットに基づく 2 クラス EEG 感情認識 (pytorch ディープ ニューラル ネットワーク (DNN) および畳み込みニューラル ネットワーク (CNN)) のコード解析

論文とソースコードについては、個人のホームページを参照してください。

https://download.csdn.net/download/qq_45874683/87667147

論文とソース コード) 2 クラスの EEG 感情認識 (DEAP および MABHOB データ セットに基づく pytorch ディープ ニューラル ネットワーク (DNN) および畳み込みニューラル ネットワーク (CNN))


目次

この論文は2021年にトップジャーナルに掲載されました。(pytorch フレームワーク)

まとめ

1 はじめに

2 関連作品

2.1 該当作品の再現性

3つのデータセット

3.1 ディープ

3.2 マフノブ

3.3 データセットの前処理

3.3.1 DEAP 前処理

3.3.2 MAHNOB の前処理

3.3.3 前処理されたデータセットの概要

4モデル

4.1 ディープ ニューラル ネットワーク (DNN)

4.2 畳み込みニューラル ネットワーク (CNN)

5 結果の分析

5.1 データセット間の結果の分析

5.2 比較モデルの統計的検定

5.2.1 マクネマーの検定

5.2.2 5x2cv 対応のある t 検定

5.3 アロウサの分類結果

6 結論


まとめ

        脳波 (EEG) 信号を記録するデバイスがますます手頃な価格になるにつれて、EEG データを使用して人間の感情状態を予測するアプリケーションへの関心が高まっています。ただし、この分野の研究論文は再現性が低いことが多く [1]、報告される結果はかなり薄っぺらで、統計的有意性がなく、単一のデータセットでのテストに基づいていることがよくあります。

        したがって、この論文の目的は、統計実験を通じて得られたモデルをテストし、さまざまなモデルとデータセットを比較することです。

        検討した 2 つのモデル、ディープ ニューラル ネットワーク (DNN) と畳み込みニューラル ネットワーク (CNN) のうち、1 つ目は特定のトレーニング セットで最大の精度を達成できましたが、平均すると CNN の方が DNN よりも優れていることがわかりました。同じモデルを使用すると、DEAP は MAHNOB よりも高い精度を達成しますが、その精度はわずかであり、これらのモデルが両方のデータセットでほぼ同等のパフォーマンスを発揮できるほど十分に堅牢であることを示しています。

        [2] で提案された EEG からの価性覚醒分類の方法は、そこで報告された結果を再現する試みとして厳密に従われました。2 番目の目標を達成するために、McNemar テストと 5x2cv テストが使用され、モデルが 2 つの異なるデータセット DEAP[3] と MAHNOB[4] で相互に比較されました。その目的は、モデルが 2 つのデータセットで実行できるかどうかを理解することです。同一ですが、関連するデータセットに対して同様の操作を実行します。

1 はじめに

        カメラやマイクなどのセンサーが低コストであったため、長い間、感情認識は主にビデオまたは音声の記録に基づいていました。しかし、技術の進歩により、生理学的信号を捕捉するセンサーを比較的低コストで構築できるようになったため、最近、感情コンピューティング コミュニティ内でこのデータの使用に対する関心が顕著に高まっています。脳波 (EEG) 信号も例外ではありません。

        これと並行して、ディープラーニング技術の使用も大幅に増加しているため、最近の学術研究の多くが、脳波から感情を認識するディープ ニューラル ネットワークのトレーニングに焦点を当てていることは驚くべきことではありません。さらに、EEG データは理解するのが難しい複雑な信号であることが知られているため、特徴を自動的に学習するディープ ニューラル ネットワークの機能は有望に思えます。

        この分野における最近の研究はこの仮説を裏付けており、ディープ ニューラル モデルが従来の技術を上回るパフォーマンスを示しています。しかし、これらの研究の多くは、再現することが困難または不可能であり、モデルをテストするために単一のデータセットに依存していることが判明しています。[1] などのいくつかの研究では、この問題に関する驚くべきデータが報告されています。平均して、EEG 深層学習の研究では、使用されたデータセット (時間の 50%) やモデルのコード (90%) が公開されておらず、再現性が困難です。通常、これを実行するのは非常に困難です (90%)。

        この研究の最初の目標は、ステップを再現し、[2] で報告されているものと同様のパフォーマンスの予測子を取得することです。この研究では、単純なディープ ニューラル ネットワーク (DNN) と畳み込みニューラル ネットワーク (CNN) という 2 つのニューラル ネットワーク モデルが、 EEG データから感情を分類するためにトレーニングされました。使用されるデータセットは、感情コンピューティング アプリケーションのよく知られたベンチマーク データベースである DEAP [3] です。この研究は、ラッセルによって提案された価性と覚醒の 2 つの連続的な側面に基づいて感情状態を予測することに焦点を当てています。特に、価度と覚醒の二項分類と三項分類に焦点が当てられましたが、この研究では二項分類のみが考慮されました。

        [2] で説明されているすべての手順に厳密に従っているにもかかわらず、私たちのモデルの精度は報告されている精度とは程遠いため、論文ではデータの前処理ステップの一部が省略されているという結論に至りました。

        この研究のもう 1 つの目的は、異なるモデル (特に DNN と CNN) を統計的に比較して、2 つのモデル間に有意な違いがあるかどうかを理解することです。さらに、これらのモデルは、同じアーキテクチャが両方のドメインで適切に機能するかどうかを調べるために、価性覚醒ラベルで注釈が付けられた 2 つの EEG データセット、つまり DEAP と MAHNOB でテストされました。

        結果は、DEAP でトレーニングおよび評価されたモデルのパフォーマンスが MAHNOB でトレーニングおよび評価されたモデルよりも優れている傾向があることを示していますが、これは 2 つのデータセット間のサイズの違いによるものである可能性があります。一般に、両方のモデルは DEAP と MAHNOB で同様のパフォーマンスを発揮することがわかっています

        DNN モデルと CNN モデルも、マクネマー検定と 5x2cv 対応のある t 検定を使用して両方のデータセットで比較されました。[5] で指摘されているように、これらのテストは、タイプ I エラーが低く、統計的検出力が優れているため選択され、今日では事実上の標準となっています。McNemar のテストではモデル間に大きな違いは見つかりませんでしたが、5x2cv テストはより強力であり、CNN モデルが DNN モデルよりも統計的に優れていることを示すことができました。

        本レポートは以下のような構成となっております。セクション 2 では、[2] の前処理ステップ、方法、結果を要約し、どれだけの論文を複製できたかについても説明します。セクション 3 ではデータセットと各データセットに適用される前処理手順について説明し、セクション 4 では使用されるニューラル アーキテクチャ、相対的なハイパーパラメーター、トレーニング手順について詳しく説明します。次にセクション 5 には、モデルとデータセットを比較するための結果と統計的テストの概要が含まれます。最後に、セクション 6 では、提案された目的に関する研究結果について詳しく説明します。レポートは、提供されたモデルと実験のソース コードを簡単に参照するための参照として機能する小さな付録によって完成されます。


2 関連作品

        この研究のきっかけとなった論文は、Tripathi らが 2017 年に発表した論文 [2] です。著者らは、単純なニューラル ネットワーク モデルを使用して、EEG データから価度と覚醒を予測しました。価性覚醒を予測する問題は分類問題として組み立てられ、特に 2 クラスと 3 クラスの分類がテストされました。二項分類の場合、価数覚醒値が 5 未満の場合は活性が低いとみなされ、値が 5 を超える場合は活性が高いとみなされます。

        使用されるデータは、DEAP データセットの前処理バージョンからのものです [6]。次に、トレーニングに合理的なコンピューティング リソースを使用するために、データセットを処理して EEG データの次元を削減し、各 EEG トライアルを複数のバッチに分割し、平均、標準偏差、最小値、最大値、その他の統計値を使用しました。バッチごとにまとめられています。

        使用される 2 つのモデルは、基本的なディープ ニューラル ネットワークです。1 つ目は全結合層で構成される単純な 4 層ニューラル ネットワークで、もう 1 つは 2 つの畳み込み層、最大プーリング層、および 2 つの全結合層を含む畳み込みニューラル ネットワークです。

        次に、この論文では、DNN と CNN の異なるハイパーパラメーター構成を使用した 32 分割相互検証によって得られた結果を報告します。DNN モデルは価度と覚醒においてそれぞれ 75.8% と 73.1% の精度を達成しましたが、CNN モデルは 81.4% と 73.4% という驚異的な精度を達成しました。


2.1 該当作品の再現性

        このセクションでは、[2] から再現できたことについて説明します。再現された結果が満足のいくものではなかったため、プリプロセッサ、モデル アーキテクチャ、およびハイパーパラメータにいくつかの変更が加えられました。このため、このセクションは、この研究で使用される最終的なデータセットの前処理手順とモデルについて説明するセクション 3 と 4 の前に配置されます。

        この研究のコードとデータは公開されていませんが、データ処理が単純でニューラル モデルが基本的なものであったため、同じ前処理ステップとモデルを複製することは困難ではありませんでした。しかし、訓練された予測子は EEG データから学習できませんでした。モデルは過小適合または過適合のいずれかでしたが、一般的なパターンは見つかりませんでした。

        セクション 3 で述べたように、データセットを正規化することで、モデルはデータからいくつかのパターンを学習できるため、この問題が軽減されます。標準化ステップは [2] では明示的に引用されていませんが、一般的なステップであり、暗黙的なステップであると主張することもできます。

        ただし、正規化後でも、結果のモデルの精度は [2] で述べられている精度には遠く及ばず、一部のトレーニング/テスト分割では最大 80% に達しますが、平均精度は約 60% です。再現研究では75%でした。セクション 5.1 で報告される結果は、わずかに異なるハイパーパラメータの選択とモデル アーキテクチャに基づいていますが、論文を正確に複製して得られたものとほぼ同じであるため、期待される精度と実際に得られた精度を比較するための指標として使用できます。 。

        トレーニング プロセスとモデル アーキテクチャは他の分野で使用される標準的なニューラル ネットワークと変わらないため、問題はデータに依存している可能性があります。さまざまなタイプの正規化 (チャネルごと、トライアルごと、参加者ごと、グローバル、次元削減の後または前) が試行されましたが、精度の向上は得られませんでした。したがって、[2] の著者は、追加の前処理手順の実行について明示的に言及したことはありませんが、DEAP のカスタム前処理バージョンを使用した可能性があります。

        [2] の結果を再現できなかった後、その研究とは異なるいくつかの選択が行われました。たとえば、まったく同じ結果を得るために、他の生理学的信号も含まれる 40 チャネルすべての代わりに、32 個の EEG チャネルのみが使用されました。特性のセット。モデルのアーキテクチャとハイパーパラメータもわずかに変更されました。データセットとモデルの詳細な説明はセクション 3 と 4 にあります。


3つのデータセット

        DEAP データセットと MAHNOB データセットがこの研究に選択されたのは、両方に EEG データと価数覚醒の注釈が含まれているためです。価度と覚醒の注釈は、感情コンピューティングで広く使用されているラッセルスケールに基づいています。ラッセルズの価性覚醒スケールを使用すると、各感情状態は 2D 平面上の点となり、価性と覚醒がそれぞれ水平軸と垂直軸となります (図 1 を参照)。したがって、価性と覚醒の組み合わせが特定の感情を生み出します。特に、原子価は不快なものと楽しいものの間で変化し、覚醒は非活動的か活動的の間で変化する可能性があります。


3.1 ディープ

        DEAP[3] は、2014 年にリリースされた感情分析用のデータセットです。これは感情コンピューティングにおける最大の公開データセットの 1 つであり、さまざまな生理学的信号やビデオ信号も含まれています。

DEAP データセットは 2 つの部分で構成されます。

        1) 120 の 1 分間のミュージック ビデオのデータベース。それぞれのビデオは、14 ~ 16 人のボランティアによって、ヴァレンス、興奮、優位性に基づいて評価されます。

        2) 40 以上のミュージック ビデオのサブセット。各ミュージック ビデオには、32 人の参加者それぞれに対応する EEG および生理学的信号が含まれます。パート 1 と同様に、各ビデオは、魅力、興奮、支配力の次元で評価されました。

        このレポートの目的では、EEG 信号を含む DEAP データセットの 2 番目の部分のみが使用されました。

        EEG 信号は、構成可能なサンプリング レートで 32 個の EEG チャネルを記録する Biosemi ActiveTwo デバイスを使用して収集されました。DEAP は 512Hz で収集されましたが、データセットの作成者は、128Hz にダウンサンプリングされ、周波​​数フィルターやその他の有用な前処理ステップが適用された、EEG 信号の前処理バージョンも提供しています。

        特に、32 人の参加者それぞれについて、次の前処理された情報が存在します。

        •データ: 40 チャンネルと 40 のミュージック ビデオのそれぞれについて 8064 録音を含む 40 x 40 x 8064 アレイ。チャンネルごとのビデオごとに 8064 の録画があり、トライアル期間は 63 秒 (トライアル前のベースライン 3 秒 + トライアル 60 秒) であるため、サンプリング レートは 128 Hz (63 x 128 = 8064) になります。

        • タグ: 40 個のミュージック ビデオそれぞれの価数、覚醒、優位性、およびリンケージの注釈を含む 40 x 4 の配列。

        この前処理された情報は、セクション 3.3 で説明されているように、再度処理されます。


3.2 マフノブ

        MAHNOB[4] は、2012 年にリリースされた感情認識データセットです。これは、音声、ビデオ、生理学的信号、および視線データを提供するマルチモーダル データセットです。すべてのデータは同期され、価性と覚醒の感情面に関して注釈が付けられます。4 つの異なるタイプの実験が実施されました。 1) 最初のタイプの実験では、参加者にビデオが見せられ、そのビデオ刺激に対する価度と覚醒レベルに注釈を付ける必要がありました。2) 他の 3 種類の実験では、ラベルが画面の下部に配置されました。このラベルは、上映されている映画に関連している場合もあれば、そうでない場合もあります。この条件で、参加者はビデオに対するタグの関連性を評価するように求められました。このレポートでは、最初のタイプの実験からのデータのみが使用されました。EEG 信号は、DEAP データセットの収集に使用したのと同じデバイス Biosemi ActiveTwo を使用して記録されました。したがって、脳波信号にも 32 チャンネルがありますが、MAHNOB は 512Hz ではなく 256Hz で信号を収集します。DEAP とは対照的に、MAHNOB はデータセットの前処理バージョンを提供せず、EEG 信号の .bdf 形式の生の収集ファイルを提供します。このデータを処理するには、セクション 3.3 で説明されているように、DEAP よりも多くの前処理ステップを実行する必要があります。


3.3 データセットの前処理

        DEAP と MAHNOB のデータは前処理されています。次の 2 つのサブセクションでは、これら 2 つのデータセットに適用される前処理手順について詳しく説明します。

3.3.1 DEAP 前処理

        データの次元が削減されました。40 チャネルは 32 チャネルまで削減され、EEG 信号のみが残り、チャネルごとの 8064 個の読み取り値は 99 個の値に減りました。

        [2] で行われた後者の処理を実行するために、8064 レコードがそれぞれ約 807 読み取りの 10 バッチに分割されました。次に、各バッチの次の統計値が抽出されました: 平均、中央値、最大、最小、標準偏差、分散、範囲、歪度、尖度。その結果、バッチあたり 9 つの値が得られます (10 バッチで 90 の値が生成されます)。時間)。次に、8064 個の読み取り値全体に対して同じ値が計算され、9 個の追加値、合計 99 個の値が得られます。

        これらの要約値は、次の式を使用して例に基づいて正規化され、平均が 0、標準偏差が 1 になります。

        ここで、X は 32x99 サンプル全体であり、


3.3.2 MAHNOB の前処理

        このデータセットは、Biosemi ActiveTwo デバイスで収集された生の EEG データを .bdf 形式で提供します。このデータは前処理されていないため、追加の作業を行う必要があります。生の EEG 信号を処理するには、人間の神経生理学的データを処理および視覚化するために特別に設計された MNE Python ライブラリが使用されています [8]。

        [6] で説明されているように、同じ前処理手順が DEAP データセットの公式前処理バージョンに適用されました。特に、EEG 信号はチャネル「Cz」を参照します。これは共通の参照チャネルであり、Biosemi FAQ [9] でも提案されています。4 ~ 45Hz のバンドパス フィルターが適用されていましたが、効果が低かったため、削除されました。また、MAHNOB ではセッションあたりの録音数が固定されておらず、実験前後の 30 秒間の録音も含まれているため、実験の途中から必要な録音を抽出しました。

        次に、DEAP と同じ前処理手順 (セクション 3.3.1 で説明) が適用されましたが、わずか 1 つだけ調整されました。8064 の代わりに 16128 (8064 x 2) の読み取り値が考慮され、前処理のバッチ サイズも 2 倍になりました。 MAHNOB データセットは 256Hz で収集された生データを提供しますが、DEAP は 128Hz のダウンサンプリング バージョンのデータを提供します。こうすることで、バッチがカバーする時間枠は両方のデータセットで同じになります

3.3.3 前処理されたデータセットの概要

        前のセクションで説明した前処理ステップの後、表 1 に示すように、両方のデータセットに同じ形状のデータが含まれます。

 表 1: 前処理ステップ後のデータセットのサイズとデータの形状。データには 32 チャネルが含まれており、それぞれ 99 レコードが含まれており、タグには 2 つの値 (価度と覚醒) が含まれています。

        これらの処理ステップを実行するスクリプトは、それぞれ prepare deap.py および prepare mahnob.py という名前でプロジェクトのリポジトリに提供されます。

        両方のデータセットはトレーニング セットとテスト セットに分割されており、DEAP と MAHNOB のセグメンテーション率はそれぞれ (1180,100) と (460,86) です。残念ながら、元の MAHNOB データセットには 1183 のセッションが含まれていましたが、そのうちの 546 セッションのみに価度と覚醒の注釈が付けられていたため、現在のユースケースではかなり小さなデータセットになってしまいました。


4モデル

        この研究では、完全に接続された層を備えたディープ ニューラル ネットワーク (DNN) と畳み込みニューラル ネットワーク (CNN) という 2 つの異なるニューラル ネットワーク アーキテクチャを採用しました。これらは、[2] からわずかな修正を加えたものです。どちらのモデルも Python と PyTorch [10] を使用して開発されており、ソース コードは scripts/nn/models.py にあります。

        次のサブセクションでは、これらのモデルとトレーニング手法のそれぞれについて詳しく説明します。


4.1 ディープ ニューラル ネットワーク (DNN)

        DNN モデルは、3 つの隠れ層を持つディープ ニューラル ネットワークです。アーキテクチャの大まかな図式を図 2 に示し、各層の正確な詳細を表 2 に示します。

図 2: DNN アーキテクチャ。示されているニューロンの数は表現のみを目的としており、実際のニューロンの数は各層の下に報告されています。

表 2: ディープ ニューラル ネットワーク (DNN) アーキテクチャ

        ReLU 活性化関数は各高密度層 (最後の層を除く) の後に使用されてモデルに非線形性が導入され、シグモイド関数は最後の層の後に適用されて出力を区間 [0, 1] に圧縮します。この論文では、価性/覚醒分類は二項分類問題 (低または高) として扱われるため、[0, 1] の値を持つ単一の出力ニューロンは、高い値を参照するためにネットワークによって推論された入力信号を表します。覚醒した感情状態、確率。

        トレーニングに利用できるデータの量が少ないため、過学習を避けるためにドロップアウト手法が多用されます。

        ネットワークのすべての重みはザビエル正規法 [11] を使用して初期化され、すべてのバイアスは値 0 で初期化されます。

        トレーニングに使用されるハイパーパラメータ、オプティマイザー、損失関数を表 3 に示します。2 つのデータセットにはわずかな違いがあります。

表 3: DNN トレーニング手順のハイパーパラメーター、損失関数、およびオプティマイザー。BCE = バイナリ クロス エントロピー、RMSProp = 二乗平均平方根伝播 (二乗平均平方根)。


4.2 畳み込みニューラル ネットワーク (CNN)

        CNN モデルは畳み込み層を利用し、データを形状 32 x 99 の 2D 入力として扱います。図 3 にアーキテクチャを示し、表 4 に各層の詳細を示します。

        つまり、モデルは 2 つの畳み込み層、次に最大プーリング層、最後に 2 つの完全接続層で構成されます。畳み込み層は入力を 2D 画像として扱い、畳み込み演算を通じて 3x3 フィルターを適用します。このタイプのレイヤーは主に画像を含むタスクで使用されます。最大プーリング レイヤーは、データの空間次元を削減するために使用され、画像上で 2x2 ウィンドウをスライドさせ、単一の値、つまり最も活性化が高いニューロンの値に削減されます。最大プーリングは画像の空間次元を削減するため、最終的に完全に接続された層で必要なパラメータの数が減り、ネットワークの過剰適合を回避できます。

        DNN モデルと同様に、CNN の重みは、バイアスを 0 に設定した Xavier の通常の手法を使用して初期化されます。

        トレーニングに使用されるハイパーパラメータ、オプティマイザ、損失関数を表 5 に示します。2 つのデータセットにはわずかな違いがあります。

表 5: CNN トレーニング プロセスにおけるハイパーパラメーター、損失関数、およびオプティマイザー。BCE = バイナリ クロス エントロピー、SGD = 確率的勾配降下法。


5 結果の分析

        このセクションはサブセクションに分かれています。

        セクション 5.1 では、得られた結果と再現研究 [2] からの予想結果との比較、および DEAP モデルと MAHNOB モデルのパフォーマンスの違いに焦点を当てます。

        一方、セクション 5.2 では、2 つのモデル間に有意な違いがあるかどうかを発見することを目的として、DNN モデルと CNN モデルを相互に比較するために実行される統計テストについて説明します。

        最後に、セクション 5.3 では、覚醒分類モデルのパフォーマンスについて説明します。


5.1 データセット間の結果の分析

        モデルを評価する最初の方法は、最も単純な方法です。セクション 3.3 で述べたように、各データセットはトレーニング部分とテスト部分の 2 つのサブセットに分割されます。この実験では、モデルはデータセットのトレーニング部分でトレーニングされ、対応するデータセットのテスト セットでテストされました。

        二値価分類の結果を表 6 に示します。これらの特定の結果は、トレーニング中に取得された最良のモデルを指します。

表 6: DEAP および MAHNOB データセットに対する DNN および CNN モデルによる値分類の結果。信頼区間は 95% の有意水準を指し、テスト セット評価の二項分布をガウス分布に近似することによって計算されます。スクリプト confidence-intervals.py には、計算用のコードが含まれています。

        これらの結果から、一般に、モデルは MAHNOB よりも DEAP の方がパフォーマンスが優れています。MAHNOB がこれの一因であることは間違いありません

        データセットの例の数は DEAP の半分未満であるため、モデルのトレーニングが難しくなり、過剰適合が起こりやすくなります。表 6 からわかるように、DNN モデルは両方のデータセット、特に DEAP で CNN モデルよりも優れているようですが、この非公式の観察は、2 つのモデルが統計的に比較されたことについて説明するセクション 5.2 で疑問視されています。

        このモデルは、K 分割交差検証を使用して評価されました。この手法では、データセットが(可能な場合)同じサイズの K 個のフォールドに分割され、各フォールドが順番にテスト セットとして使用され、データセットの残りの部分がトレーニング セットとして使用されます。したがって、K 個のモデルがトレーニングされ、その精度が評価されるため、最終的に報告される K 分割相互検証の精度は、これらの精度の平均になります。

        DEAP の 32 倍相互検証の結果と MAHNOB の 6 倍相互検証の結果を表 7 に示します。

表 7: DEAP および MAHNOB に対する DNN と CNN の K 分割相互検証結果。DEAP 実行では 32 フォールドが使用されましたが、MAHNOB 実行では 6 フォールドが使用されました。この実験を再現するスクリプトは、kfoldcross-validation.py という名前で見つかります。

        K 分割相互検証を使用して得られる精度は、固定トレイン/テスト分割を使用して得られる精度よりもはるかに低くなります。したがって、モデルは高い分散誤差に悩まされていると言えます。つまり、モデルのパフォーマンスは、モデルに提供された特定のトレーニングおよびテスト セットと高度に相関しています。表 6 の結果については、データセットに対して実行されたトレーニング/テスト分割は、偶然に高い精度をもたらした「幸運な」分割であった可能性があります。

        高分散予想は、K 分割相互検証中に得られた分割固有の精度によっても確認されます。たとえば、DEAP での DNN モデルの K 分割実行では、分割精度は 43% から 78% の範囲であり、データセットの分割が異なると精度の結果がどのように根本的に変化するかを示しています。それほど極端ではありませんが、MAHNOB でも同じ動作が観察されました。

        DEAP の K 倍の結果は、[2] で報告された結果と比較できます。その研究では、評価手法として 32 倍の相互検証も使用されていたからです。DNN と CNN の精度はそれぞれ 75% と 81% ですが、当社の精度は 58% と 59% です。精度の差は大きく、この研究で使用されたデータセットとモデルは [2] のものとは異なりますが、[2] と同じ正確なデータ前処理手順とモデル アーキテクチャを使用して、表と同じ結果が得られました。 7 の結果は、セクション 2.1 で報告された結果と非常に似ています。

        K 倍の結果は以前の結果も裏付けています。つまり、どちらのモデルも DEAP 上で MAHNOB よりも優れたパフォーマンスを示します。もう 1 つの興味深い観察結果は、CNN モデルが両方のデータセットで DNN モデルよりもわずかに優れている一方、単一のトレーニング/テスト分割で評価すると DNN モデルの方がより高い最大精度を達成できることです。


5.2 比較モデルの統計的検定

        簡単にするために、すべての統計検定は価数予測モデルで実行されます。ただし、セクション 5.3 の結果に基づいて、覚醒モデルの統計的テストの結果は同様であると考えられます。


5.2.1 マクネマーの検定

        マクネマー テストは、DNN モデルと CNN モデルのパフォーマンスの間に統計的に有意な差があるかどうかをテストするために使用されます。このテストを実行するために、表 6 に報告されている結果を持つ予測子、つまり DEAP と MAHNOB のデフォルトのトレーニング/テスト分割でトレーニングされた予測子が使用されました。このセクションで説明するマクネマーのテストを再現するスクリプトは McNemar-test.py です。 マクネマーのテストは次のように機能します [5]: 比較される予測子 (この場合は f DNN と f CNN) はテスト セットに対して評価されます。次のリンク表:

        ここで、n 00 は両方の予測子によって誤分類されたテスト セット内のサンプルの数、n 01 は f DNN によって誤分類されたが f CNN によっては誤分類されなかったサンプルの数、n 10 は f CNN によって誤分類されたサンプルの数です。 f CNN (fDNN ではない) サンプル数と n 11 は、両方の予測子によって正しく分類されたサンプルの数です。したがって、n00+n01+n10+n11 はテスト セット内の例の数と等しくなります。

        マクネマー検定の帰無仮説は、2 つの予測子の誤り率が同じである、つまり n 01 = n 10 であるということです。このテストでは、よく適合したカイ二乗検定を使用して、n01 および n10 の予想カウントと実際に取得されたカウントを比較します。

        実際には、次のマクネマー検定統計量は より大きくX_{1,0.95}^{2}=3.841、確率は 5% 未満です。

        したがって、この場合、選択したトレーニング セットとテスト セットで 2 つの予測子のパフォーマンスが大きく異なるという帰無仮説を自信を持って棄却できます。

        DEAP でトレーニングされた DNN および CNN モデルを使用して取得された接触テーブルは次のとおりです。

        結果として得られる統計量は 0.487 ですが、帰無仮説を自信を持って棄却するには十分ではありません。したがって、セクション 5 で述べたように、DNN と CNN の予測子のパフォーマンスは異なりますが、マクネマー検定は、これら 2 つの予測子のパフォーマンスが大きく異なるわけではないという帰無仮説を受け入れるべきであることを示しています。

        MAHNOB の予測変数については、次のリンク テーブルが取得されました。

        何も計算しなくても、n01 と n10 がほぼ同じであることがわかります。この場合、マクネマーの検定によれば、これら 2 つの予測変数は基本的に同じパフォーマンスを持っていると言えます。


5.2.2 5x2cv 対応のある t 検定

        マクネマーのテストは 2 つの予測子の比較に関するものですが (予測子は学習アルゴリズムを実行した結果、つまり結果のモデルと見なされます)、5x2cv テストは 2 つの学習アルゴリズムを比較します。したがって、このテストを実行するために、マクネマーのテストのように、セクション 5 で指定された事前学習済みモデルを使用する必要はありません。

        5x2cv 対応のある t 検定は、5 回反復した 2 分割交差検証に基づく統計検定で、2 つの学習アルゴリズム間に有意なパフォーマンスの差があるかどうかを発見するように設計されています [5]。このテストでは、マクネマーのテストほどではありませんが、タイプ I 過誤が低いことが示されました。一方、5x2cv テストの検出力は McNemar のテストよりも高く、実際に存在する差異を検出するのに優れています。

        5x2cv テストの欠点の 1 つは、計算コストが高く、マクネマー テストの 10 倍高いことです。Dieterrich は [5] で、計算的に可能な場合は McNemar の代わりに 5x2cv を使用することを推奨しており、幸いにもこの研究のデータとモデルはそのようになりました。

        テストは次のように動作します。2 分割交差検証を 5 回繰り返しました。各反復では、データが S1 と S2 の 2 つのセットに分割され、学習アルゴリズム A と B の両方が最初に S1 でトレーニングされ、次に S2 でテストされます (逆も同様)。その結果、 、 、p_{A}^{(1)}p_{B}^{(1)}4p_{B}^{(2)}つの誤差推定値が得られますp_{A}^{(2)}各フォールドについて、推定差は次のように計算できます: p^{(1)}= p_{A}^{(1)} -p_{B}^{(1)} およびp^{2} = p_{A}^{(2)} - p_{B}^{(2)}この場合、推定分散はs^{2} = ( p^{(1)} - p\バー{})となります^{2}この計算は反復ごとに繰り返されるため、i = 1,...,5 の場合、 が得られs_{i}^{2}、検定統計量は次のように計算できます。

        帰無仮説では、ティルダ{}自由度 5 の t 分布に従います。したがって、アルファを 0.05 に設定すると、t>2.571 または t<-2.571 の場合に帰無仮説を棄却できます。

        5x2cv テストは、DEAP および MAHNOB 上の DNN モデルと CNN モデルを比較するために使用されています。これらのテストでは、ハードウェアの制約を満たすためにエポック数が 150 に減らされたことを除き、セクション 4.1 および 4.2 で報告されたものと同じアーキテクチャとハイパーパラメータが使用されました。これらの結果を再現するスクリプトは、5x2cv-test.py という名前で見つかります。

        DEAP では、結果の統計値は -2.502 で、帰無仮説を 95% の信頼度で棄却するためのしきい値である -2.571 に非常に近づきます。0.06 などのわずかに高いアルファ値の場合、帰無仮説は棄却される可能性があります。これは、比較した 2 つの学習アルゴリズム間に統計的に有意な差がある可能性があることを意味します。

        驚くべきことに、セクション 5 の表 6 の結果では、DNN ネットワークは CNN よりも高い精度を達成できていますが、この場合、DNN と CNN の 2 つのモデルの平均精度はそれぞれ 54.3% と 57.2% であるため、 CNN モデルは DNN よりも優れています。2 分割交差検証の精度は、セクション 5 で報告したものよりも悪いことに注意してください。これは、この場合、トレーニング セットがはるかに小さく、過学習につながる可能性があるためです。

        一方、MAHNOB では、テストによって計算された t 統計量は 0.306 であり、このデータセットでは両方のモデルが同様に実行されることを示しています。


5.3 アロウサの分類結果

        現在の研究は主に価価分類に焦点を当てていますが、覚醒分類に関するいくつかの実験も行われています。具体的には、K 分割交差検証も実行し、表 8 の結果が得られました。

表 8: 覚醒バイナリ分類の DEAP および MAHNOB に対する DNN と CNN の K 分割交差検証の結果。DEAP 実行では 32 フォールドが使用されましたが、MAHNOB 実行では 6 フォールドが使用されました。

        これらの結果は価数分類の結果と一致しており、CNN モデルが DNN モデルよりわずかに優れているように見えることを強調しています。また、価数分類の精度がわずかに低下することも示しているため、それらは [2] で報告された結果とも一致しています。


6 結論

        この研究では、最初に別の論文 [2] の結果を再現しようとしましたが、モデルの精度が再現論文で報告されている精度よりもはるかに低かったため、再現することができませんでした。

        ただし、この研究では、両方のテスト モデルが DEAP と MAHNOB で同様に機能することができたことがわかりました。これは、これらが EEG からの価性覚醒の非常に堅牢な分類子であることが証明されており、他の EEG ベースのデータではより優れたパフォーマンスを発揮できる可能性があることを意味します。セットはわずかな変更またはまったく変更なしで行われます。これらの結果は、この研究で説明した基本的および一般的なニューラル ネットワーク モデルを使用して得られたものであるため、より特殊で複雑な神経構造が脳波の感情分類においてより優れたパフォーマンスを発揮する可能性があると考えるのは合理的です。

        さらに、統計的な観点から見ると、少なくとも DEAP では、CNN アーキテクチャは DNN モデルよりもはるかに優れています。将来の研究では、DNN アーキテクチャよりも異なる CNN アーキテクチャを使用した実験の方がより有益となる可能性があるため、この結果は重要です。

コード解析部分は個人のホームページにあります。

https://blog.csdn.net/qq_45874683/article/details/130007976?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22 %3A%22130007976%22%2C%22ソース%22%3A%22qq_45874683%22%7D

(論文とソースコード) DEAP および MABHOB データセットに基づく 2 クラス EEG 感情認識 (pytorch ディープ ニューラル ネットワーク (DNN) および畳み込みニューラル ネットワーク (CNN)) のコード解析

論文とソースコードについては、個人のホームページを参照してください。

https://download.csdn.net/download/qq_45874683/87667147

論文とソース コード) 2 クラスの EEG 感情認識 (DEAP および MABHOB データ セットに基づく pytorch ディープ ニューラル ネットワーク (DNN) および畳み込みニューラル ネットワーク (CNN))

おすすめ

転載: blog.csdn.net/qq_45874683/article/details/130000469