Python に基づくマルチモーダル生理学的信号感情認識

リソースのダウンロード アドレス: https://download.csdn.net/download/sheziqiong/88288165
リソースのダウンロード アドレス: https://download.csdn.net/download/sheziqiong/88288165

マルチモーダル生理学的信号感情認識レポート

トピックの背景

1. 目標

このタスクの主な目的は、インタラクターの生理学的信号を抽出した後、インタラクションの感情タイプを特定することであるため、ここでの感情認識は主に分類問題を指します。このタスクは依然として比較的リアルタイムのタスクであり、主にわずか 1 秒の信号分類に基づいています。

2.データセット

このタスクでは、DEAP (http://www.eecs.qmul.ac.uk/mmv/datasets/deap/readme.html) と SEED ( http://bcmi.sjtu.edu.cn/home/)の 2 つのデータ セットを提供します。 seed/download.html )、これら 2 つのデータ セットの簡単な説明は次のとおりです。

  1. DEAP:
    DEAP データセットは、32 人の実験被験者が 40 個の 1 分間のミュージック ビデオをランダムに視聴し、実験被験者の生理学的信号を記録し、感情評価の 3 つの側面、すなわち価性 (価数)、覚醒 (覚醒)、支配力(優位性?)、それぞれ1から9までの整数で表されます。記録された生理信号は、前処理(ダウンサンプリングやチャネルのマ​​ージなど)後に 40 チャネルあり、そのうち最初の 32 チャネルは EEG 信号、チャネル 33 と 34 はそれぞれ眼球運動 EOG 信号、残りはその他の生理信号です(未使用)この課題では)。
    DEAP データ セットによって生成される分類ターゲットは、3 つのバイナリ分類問題です。
  2. SEED:
    SEED データセットの実験対象者は 15 人です。各人は 24 個のビデオを視聴し、生理学的信号を記録しました。各ビデオ (約 4 分) には 1 つの連続した感情があります。この感情は分類のための Gound 真理として使用されます。感情には、中立、悲しい、怖い、幸せの合計 4 つのカテゴリがあります。記録される生理信号は、EEG信号+前頭部眼電図信号の62チャンネルです。SEED 認識では、前処理された EEG 信号をネットワークに参加させる適切な方法が見つからなかったため、この実験では EEG 信号のみが使用されました。
    SEED データセットの分類対象は 4 クラス分類問題です。

SEED データ セットの分類目標は DEAP データ セットの分類目標よりも難しいことがわかります。


主な参考文献とメソッドの説明

EEG信号特徴抽出:

私たちが読んだ論文の範囲は、主に認識問題を解決するために深層学習を使用していますが、この問題を解決するために深層ネットワークを使用する主な理由は、畳み込みニューラル ネットワークの特徴抽出機能にあります。処理された信号は空間領域の情報と時間領域の情報の両方を持っているため、一般にネットワークの構築では空間領域と時間領域から抽出された情報を融合する必要があります。

  1. 2dCNN 並列 1dLSTM: 畳み込みネットワークを使用して空間情報を抽出し、LSTM ネットワークを使用して時間領域情報を抽出し、最後に分類のために特徴を融合します。
  2. 1dLSTM と連結された 2dCNN: 畳み込みネットワークを使用して空間領域情報をフレームごとに抽出し、特徴シーケンスを取得します。特徴シーケンスは LSTM を使用して抽出されます。
  3. 3dCNN: CNN は時間領域情報の抽出にも使用されます。
    最終的に 2dCNN 並列 1dLSTM を基本モデルとして選択し、それに基づいて予備実験を行いました。
    参考記事:
    1. https://ieeexplore.ieee.org/document/7822545/
    2. http://arxiv.org/abs/1708.06578
    3. https://arxiv.org/abs/1704.08619

マルチモーダル機能の融合:

論文( https://dl.acm.org/citation.cfm?id=2832411 )の結論によると、眼球運動信号と脳波信号はある程度相補的であり、私たちのマルチモーダル実験は主に以下に基づいています。アイトラッキングデータEOG。マルチモーダル融合のアイデアは主に特徴層の融合を採用しており、EEG と EOG から特徴を別々に抽出し、特定の層で連結します。


主な仕事

私たちの主な業務は以下の通りです。

  • DEAP および SEED データの前処理
  • 実験 1: モデルの結果を検証する
  • 実験 2: モデルの改善 - 個別の畳み込みを使用して時間領域情報を抽出する
  • 実験 3: 時間領域情報の抽出に注意を払ったモデルの改善
  • 実験 4: モデルの探索 - 3 つのモデルの一般化機能の探索

データの前処理:

データ前処理の主な作業は、EEG 信号を 2 次元行列形式に変換して、2dCNN を使用して特徴抽出、EEG の基底平均処理 (記事で説明されています。DEAP のみ)、DEAP と SEED の差分処理、および眼移動データの前処理。

1.EEG: 1D ⇒ 2D 1D\Rightarrow2D1D _2D_ _

現在では脳波(一次元信号)を二次元信号に変換する手法が比較的主流ですが、その理由は脳波信号を受け取るセンサーが被験者の脳に分布しているためであり、直感的に信じることができます。つまり、脳の同じ領域の脳波信号にはかなりの相関があり、1次元脳波を直接処理すると、ネットワークの前にそのような相関を付加しないことと同じになります。これにより、ネットワークは近隣相関関係を独自に見つける必要が生じ、結果はあまり良くなくなります。2 次元行列 (センサーの位置に従って配置) の表現を使用すると、ネットワークがこの近傍相関を取得できるようになります。
DEAP と SEED は両方とも、EEG 信号センサー配置に標準の10 − 20 10-20を採用しているため、1020システムなので、論文の方法に基づいて、9 × 9 9\times99×すべてのセンサーに対応するための9 つのマトリックス (このマトリックスは、特に 32 チャネルの EEG 信号のみを使用する DEAP データ セットの場合、比較的疎です。この疎性が特徴抽出の結果に影響するかどうかはわかりません)。具体的な EEG と 2 次元マトリックスの例 (例として DEAP) は次のとおりです。

ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

2. DEAP データセットと SEED データセットの違い

主な違いは、DEAP データセットのサンプリングされた時間領域の長さは同じであり、DEAP データセットは各被験者の 3 秒間の無刺激脳波信号を事前に記録することです。実際の処理では、BaseMean メソッドが使用されます。残りの EEG 信号のノイズを除去すると精度が向上します。ただし、上記のデータの利点はいずれも SEED では利用できないため、前処理にも違いが生じます。

3. 眼球運動データの前処理

私たちのマルチモーダル実験は DEAP データセットに対してのみ実行されましたが、DEAP 上の眼球運動データはそれほど価値がなく、前処理は 128 フレームに従ってブロックに分割されただけでした。

モデルの結果を検証する

2 つのデータセットの結果を比較するために、論文では DEAP の EEG ノイズを除去する BaseMean 法を使用しませんでした。得られた結果の一部は次のとおりです。

ここに画像の説明を挿入します
ここに画像の説明を挿入します

SEED の実験結果が良くなかったことが分かりますが、その結果を分析した結果、4 クラス分類の方が 2 クラス分類よりも問題が複雑になったのではないかと推測され、結果が自然に低下しました。 。(暫定的な結論)

実験 2 - 分離畳み込みを使用した時間領域情報の抽出

kerasを使用して論文内のネットワークを再現する場合、時間領域情報を処理するために分離畳み込み法が使用されます。つまり、128フレームのタイムラインをチャネルとみなし、チャネルの畳み込みが行われます(固定サイズを使用)同じ数のコンボリューション カーネルが異なるチャネル (フレーム) 上でコンボリューションされ、時間領域で融合されます。
個別の畳み込みを使用して元の CNN を置き換えること (2D 情報を直接抽出してから連結を実行する) により、元の CNN よりも良い結果が得られました。論文と同様に、エポックを 20 に設定し、各エポックに 15 のバッチを設定して 1 名のサンプルを検証しました。得られた結果の一部は次のとおりです。

ここに画像の説明を挿入します
ここに画像の説明を挿入します

この結果は非常に良好であることがわかります。わずか 6 エポックで 96% に収束します (元の論文の実験結果よりも高い)。この結果には後述するいくつかの問題があります。
分離畳み込みについては、次の記事を参照してください: https://arxiv.org/abs/1608.04337v1

実験 3 - アテンションメカニズムを使用して時間情報を抽出する

タスク目標のリアルタイム性、つまり 1 秒間の感情分類 (DEAP データ セットの 128 フレーム) により、時間領域情報の密度は非常に高くなります。このアイデアに触発されて、私たちはアテンション メカニズムを使用して時間情報を抽出しようとします。アテンション メカニズムが使用される理由 (またはアテンションが LSTM ネットワークよりも利点がある場合) は、LSTM ネットワークが依然として本質的にシーケンス認識であるため、つまり、シーケンスの長さ制限の影響を受けるためです。関係抽出能力は強力ではありません (LSTM は RNN に基づいて長期記憶を追加しましたが)。アテンション メカニズムは基本的に、グローバルな関係を見つけることです。タイムラインに適用すると、画像の 2 つのフレーム間の長さによって制限されません。短期タスクの各フレームは多くの場合、短期タスクに非常に適しています。非常に関連性が高い。
ここでは、時間領域の特徴抽出としてアテンション表現 (アテンション ネットワーク) を使用します。ネットワーク アーキテクチャは、まず CNN ネットワークを使用して空間領域で高レベルの意味表現を抽出し、次にチャネルごとにアテンションを追加します (合計 13 チャネル)。これらの特徴に基づいて、時間領域特徴抽出のためのネットワークを構築します。特定のネットワークの計算手順についてはここでは詳しく説明しませんので、次の記事を参照してください: https://arxiv.org/abs/1706.03762
DEAP に関する具体的な実験結果は次のとおりです。

ここに画像の説明を挿入します
ここに画像の説明を挿入します

非常に良好な結果が得られていることがわかりますが、上記と同様にこの結果にもまだ問題点が残されています。

実験 4 - 3 つのモデルの一般化機能を調査する

このタスクでは、実際のアプリケーション シナリオでは、見知らぬ人の感情を識別するためにトレーニングされたモデルを使用することが望まれることが多いため、モデルの汎化パフォーマンスに高い要件が課されます。また、元のモデル、分離された畳み込みモデル、注意モデルの一般化パフォーマンスをそれぞれある程度まで調査しました。一般化能力は主にトレーニング セットとテスト セットの分割にあります。最初に 3 つのターゲットをトレーニング セットとしてテストし、もう 1 つのターゲットをテスト セットとしてテストしました。3 つのモデルのテスト結果はすべて、テスト精度 50% ~ 60 に焦点を当てていました。 %。トレーニング セットは 95% 以上に達しており、モデルが過剰適合していることは明らかです。ただし、一般的に使用される正則化方法 (ドロップアウト層、パラメータの 2 ノルム正則化) を追加した後の効果の改善は特に明らかではありません。結果は次のとおりです。

ここに画像の説明を挿入します
ここに画像の説明を挿入します

また、1 人をテスト セットとして、もう 1 人をテスト セットとしてテストしましたが、結果も良くありませんでした。
ここに画像の説明を挿入します
ここに画像の説明を挿入します

その後、以前の良好な結果はトレーニング セットとテスト セットを分割する前にシャッフルした結果であることが判明し、その結果、同じ人が視聴した 40 本のビデオのデータが破壊され、トレーニング サンプルの多様性が増加しました。ビデオを見ている同じ人の EEG 信号が似ていると仮定すると、このアプローチは、モデルにテスト セット内のサンプルのすぐ隣にある多くのサンプルを「見る」ことと同じになります。これは、同じテスト サンプルに対するモデルの一般化能力が非常に限られていることを間接的に示しています。後で元のモデル テストでもこの結論が証明されました。事前にデータ セットをシャッフルしないと、予測精度は約 50% にのみ維持され、明らかに過学習です。 (BaseMean 前処理が追加された場合でも)。

したがって、現在のモデルの一般化パフォーマンスは実際には限られており、ドロップアウトなどの正則化手法を使用するだけではこの過剰適合現象を補うことはできないと事前に結論付けました。私たちは、解決策は依然としてネットワークに事前情報を追加することにあると信じています。これは、深層学習がさまざまなシナリオでより良い結果を達成する方法でもあります。

リソースのダウンロード アドレス: https://download.csdn.net/download/sheziqiong/88288165
リソースのダウンロード アドレス: https://download.csdn.net/download/sheziqiong/88288165

おすすめ

転載: blog.csdn.net/newlw/article/details/132634660