【論文朗読】集団感情認識のための対照学習に基づく自己融合ネットワーク

【論文朗読】集団感情認識のための対照学習に基づく自己融合ネットワーク

まとめ

このブログは、 2023 年の IEEE に掲載された論文A Self-Fusion Network Ba​​sed on Contrastive Learning for Group Emotion Recognition を参照し、理解と記憶を深めるために主な内容を要約したものです。

1 はじめに

1) GER は、チーム内の人々とその環境の間の複雑な相互作用のため、IER よりも困難です。グループは、その感情がグループの感情状態を形成する個人で構成されます。GER の個人の感情的特徴をどのように集約するかは、GER 研究における重要な課題です。

2) 注意ベースの GER 手法は、通常、分類損失を使用して個々の感情的特徴の学習を監視し、シグモイド関数の出力を融合重みとして使用して、融合における個々の特徴の重要性を特徴付け、および高レベルの特徴マップを使用します。全体画像認識用。実験結果は、注意ベースの方法が認識精度において最先端を達成することを示しています[19]、[20]、[21]。

3) 現在のアテンションベースの GER 手法は、依然として 3 つの課題に直面しています。

① 学習プロセスは最終的な分類結果によって計算された損失によってのみ監視されるため、個人の感情的特性は明らかではありません。

② 融合重みの生成に使用されるシグモイド関数は、個々の特徴の重要性を正確に表現できません。図 1 に示すように、シグモイド関数は 2 つの大きくゆっくりと変化する領域の入力を 0 または 1 として近似し、GER ネットワークのアテンション モジュールにおける個々の特徴の重要性の非常に大まかな表現 (重み) を提供します。

(a) シグモイド活性化関数グラフ。シグモイド関数は、入力 x ([−3,3]) の小さな領域のみを範囲 [0,1] にマップしますが、入力の 2 つの大きな領域 [(−∞,−3] および [3,+∞) )] はおよそ 0 または 1

(b) GroupEmoW [18] データセットのテスト セットを使用した、[19] のアテンション モジュールへのシグモイド アクティベーション入力のヒストグラム。入力値の小さなサブセットのみが [0,1] にマップされます。ほとんどの個別の入力値は約 0 または 1 (ゆっくりと変化する領域)

③ 検出された物体の意味情報は集団の感情をよく反映しており、認識精度の向上に役立つ可能性があるが、関連するGER研究では利用されていない。

2.関連作品

1)IER

顔の表情は IER で最も強力な情報であり、人間が感情を表現する最も直接的な方法であると考えられています [26]。このため、表情認識 (FER) は自動感情認識の分野で注目の研究トピックの 1 つとなっています。顔の表情は、個人の気分を示す強力な指標となります。IER テクノロジーは GER の基礎を形成します。

  • Levi と Hassner [27] は、照明不変 FER のディープ モデルへの入力として LBP 特徴を使用しました。
  • [5] は、SIFT 機能を使用して、画像のスケーリングと回転に対する学習済みモデルの堅牢性を向上させました。
  • [28] は、ポーズの変動とアイデンティティの影響を軽減するマルチタスク FER ネットワークを提案し、FER の識別特徴を抽出するために敵対的識別器を使用しました。
  • [29] 特徴表現、特徴選択、分類拡張をリカレント フレームワークに統合するブーストされた深層信念ネットワーク (BDBN) を提案しています。

2)ゲル

GER の独創的な研究 [30] は、グループ レベルでの感情を「ポジティブ」、「ネガティブ」、または「中立」に分類し、社会的イベントでの人々のグループの画像を含む「グループ影響データベース」を公開しています。

EmotiW のグループレベルの感情認識サブチャレンジは、より大きな画像データセットを提供し、GER 研究を大幅に促進します [31]、[32]。

  • Tan et al. [14] は、グループの感情は個人の感情の単純な重ね合わせであると仮定し、平均的な整った顔と整っていない顔を予測することによってグループレベルの感情を取得しました。
  • Gupta らは、グループ内の個人の注意の重みを生成する注意モデルを提案し、GER のグループレベルの特徴として個々の顔の特徴の加重平均を使用しました。
  • [18] と [20] の研究成果では、提案されたモデルの認識精度を向上させるために、attention モジュール [19] のバリアントも使用されています。

近年、LSTM や GNN などのより多くの集約技術が、個々の特徴を暗黙的に融合してグローバル表現を生成するために使用されています。

  • Yu ら [16] は、顔の特徴を融合するための LSTM ベースのモデルを提案しました。
  • Guo ら [18] は、顔、物体、骨格の特徴における感情的な手がかりを利用する GNN モデルを提案しました。

暗黙的融合を使用するこれらの方法は、グループ内の個人間に特定の感情的な相互作用があることを前提としています [16]、[17]、[18]。LSTM ベースのモデルには、個人間の感情的な相互作用と逐次的な関係が必要です [16]。GNN ベースのモデルは、感情的相互作用グラフが完全に接続されていると考えており、グループ内の個人の実際の感情的関係を記述することはできません [18]。GER での明示的融合を使用する方法は、個人間の関係を仮定する必要はありませんが [14]、[18]、[20]、[33]、[34]、[35]、融合の重み学習はグローバルに依存するため、 (シーン)特徴抽出、個人(顔)特徴学習、アテンションモジュールの利用など、個別特徴集約のための効果的な融合重みを学習することは依然として困難です。

3) アテンションメカニズム

ニューラル ネットワークでは、注意メカニズムは人間の脳の動作を模倣して、少数の関連情報に選択的に焦点を合わせ、他の情報を無視するように設計されています。

これまでのところ、さまざまな視覚タスクに対して、成功を収めるさまざまな注意メカニズムが提案されています。[36] の注意メカニズムのレビューでは、注意メカニズムを 4 つの基本的なタイプに分類しています: チャネル注意 [37] (何に注意を払う)、空間注意 [38] (どこに注意を払う)、時間的注意 [39] (いつに注意を払う) ) と分岐注意。メモ [40] (何をメモするか)。これらのカテゴリの目的は、それぞれチャネル領域、空間領域、時間領域、およびマルチブランチ ネットワークの特徴におけるシグモイド関数の重みを学習することです。

GER 研究では、ほとんどの研究が特徴の集約に分岐注意を採用しています。これらの GER 手法は、マルチブランチ ネットワークを使用して、グループ内の個々の感情的特徴 (顔の特徴) を抽出および集約し、個々の特徴に対する注意の重みを学習します。この研究では、著者らは個々の特徴の融合にもブランチ アテンションを使用していますが、個々の特徴の融合重みをより正確に学習するための新しいアテンション メカニズムを提案しています。

4) 対照学習

対照学習は、異なる入力サンプルを比較することによって効果的な特徴表現を学習する手法です。

2 つの「類似した」入力 (または正のペア) のエンベディング間の距離を小さくし、2 つの「異なる」入力 (または負のペア) のエンベディング間の大きな距離を取得することを目的としています。近年、対照学習はコンピュータ ビジョン、自然言語処理 (NLP) などの分野で応用され、成功を収めています。対照学習手法は教師なしと教師ありに分類できます。SimCLR [41]、MoCo [42]、SimSiam [43] などの教師なし対比学習方法は、データ自体が下流タスクの監視を提供する特徴表現を学習します [44]。教師あり対比学習法は、ラベル [45]、[46]、[47] で表される正と負のペアを比較することによって、より多くのタスク固有の識別特徴を学習します。

文献レビューによると、対照学習は顕著な特徴を学習し、認識ネットワークのパフォーマンスを向上させるのに非常に効果的です。この論文では、著者らはネットワークのトレーニングに教師あり対比学習を使用し、GER の感情固有の特徴を抽出するためにネットワークのトレーニングを制限する新しい対比損失を設計します。

3. 方法

1) FacesNet: 表情による分類

ネットワークが明確な感情的特徴を抽出できるようにするために、対照学習が使用されます。新しいアテンション メカニズムである自己融合モジュールは、正確な顔の特徴の集約融合重みを生成するように設計されています。

①顔検出とバックボーンネットワーク:

すべての顔は前処理段階で入力画像から検出され、切り取られます。顔とランドマークの検出には高性能顔検出器 MTCNN [48] を選択します。[18] と [20] で提案されたルールに従って、vggface データセット [50] で事前トレーニングされた vgg16 ネットワーク [49] を使用して、グループ内の各人の感情を予測します。I 番目の画像の場合 ( I ijf I^f_{ij}ij) j 番目の切り取られた顔画像では、vggface バックボーンの完全に接続された最後の層の出力が体の顔の特徴xijfx^f_{ij}を表しますバツijyij'y'_{ij}yij予測される個人の感情を表現する

②自己融合モジュール

著者らは、個々の顔の特徴を集約して GER の独自の特徴を生成するための理想的な融合重みを学習する自己融合モジュールを提案しています。具体的には、私たちの自己融合モジュール設計には 2 つの目標があります。

  • 特徴を使用してグローバル情報と個々の感情を特徴付ける: 著者は、トレーニングされた SceneNet を使用して画像全体からグローバル情報を抽出し、SceneNet の最後の層の出力をグローバル感情特徴として使用します。同様に、vggface ネットワークを使用して顔の表情から個々の感情的特徴を学習し、最後の vggface レイヤーの出力を個々の感情的特徴として使用します。
  • 全体的な感情的特徴と個人的な感情的特徴の間の類似性を評価する: 個々の顔の特徴を融合するための重みを生成する識別器を構築する代わりに、著者らは個人と全体的な感情的特徴のコサイン類似性を利用して融合重みを取得します。

類似度計算における次元の不一致を考慮して、著者は全結合層と ReLU 活性化関数を使用して、全体的な感情的特徴 (シーンの特徴) と個々の感情的特徴 (顔の特徴) を共通の非負の部分空間にマッピングして、得られた融合の重みは [0,1] の範囲にあります。提案された自己融合モジュールの融合重みは次のように計算されます。
vij = ws ( xis ) ⋅ wf ( xijf ) ∣ ∣ ws ( xis ) ∣ ∣ 2 ∣ ∣ wf ( xijf ) ∣ ∣ 2 v_{ij} = \frac { w_s(x^s_i) · w_f(x^f_{ij})} {||w_s(x^s_i)||_2||w_f(x^f_{ij})||_2}vイジ=∣∣ ws( ×s) 2∣∣ w( ×ij) 2ws( ×s) w( ×ij)
GER ネットワークの既存の注意モジュールは、シグモイド活性化関数 [19]、[20]、[21] を備えたノードで構成される完全に接続された層に全体的な感情特徴と個々の顔の特徴を供給することによって、個々の注意の重みを生成します。提案された自己融合モジュールは、既存のアテンション モジュールとはまったく異なります。図1に示すように、既存の注意モジュールのシグモイド関数は、重要な入力値をゆっくりと変化する状態に閉じ込めてしまう可能性があり、個人の感情の固有の重要性を説明できません。提案された自己融合モジュールは、個人のセンチメント特徴と全体的なセンチメント特徴の間のコサイン類似度を使用して、個々の特徴に重み付けを行います。自己融合モジュールは入力データの変化に非常に敏感であるため、ネットワークがコサイン類似性の観点からグローバルな感情的特徴に近い個々の特徴にさらに注意を払うのに役立ちます。

③FacesNet損失関数:

トレーニング中、FacesNet の逆伝播と更新では 3 つの損失関数が使用されます。

  • IER のクロスエントロピー損失: GER データセットは、グループ内の個人の感情に対するラベルを提供しません。我々は、前任者 [14]、[19] の方法に従ってグループ感情ラベルを個人に割り当て、クロスエントロピー損失を使用してバックボーン ネットワークを制約します。グループ i の場合、IER のクロスエントロピー損失は次のように表されます。

LIER = − 1 N i ∑ j = 1 Niloge W yij T xijf ∑ k = 1 C ewk T xijf L_{IER} = - \frac 1 N_i \sum^{N_i}_{j=1} log \frac { e^{W^T_{yij}x^f_{ij}}} {\sum^C_{k=1}e^{w^T_kx^f_{ij}}}L私はER=N1私はj = 1N私はログ_ _k = 1CewkTバツijeWy ijTバツij

  • 対比学習損失: 個々の顔の特徴の融合重みは、自己融合モジュールによって生成されます。融合ウェイトの値の範囲は [0,1] です。個々の顔の特徴の認識性を向上させるために、関連する個人の感情学習重みと無関係な個人の感情学習重みの差を強調する対照的な学習損失を設計します。

具体的には、個々の顔画像をポジティブセットとネガティブセットに分割します。前者には、グループ内に同じ感情を持つ個人が含まれます。ネガティブグループには、グループ内で同じ気分ではない個人が含まれます。否定的なグループのサンプルは、異なる感情を持つ他のグループから無作為に抽出されました。ポジティブ サンプルとネガティブ サンプル間の特徴距離を最大化するために、グループ内のポジティブ サンプルのグローバル (シーン) 特徴をアンカー ポイントとして取得し、式 (1) を使用してポジティブ サンプルとネガティブ サンプルの融合重みを計算します。次の式に示すように、対比損失を提案します。
LCL = max { 0 , θ − ( θ + − θ − ) } L_{CL} = max\{0,θ-(θ^+-θ^-)\ }LCL _=最大{ 0 , _ (私は+ )}

  • GER のクロス エントロピー損失: 群衆のセンチメントを特定するために、クロス エントロピー損失を使用して群衆のセンチメント出力を制限し、重みを融合することで特定された個々のセンチメントをクラスター化します。グループ i の場合、GER のクロスエントロピー損失は次のように表されます。

LGER = − loge P yi T xiagg ∑ k = 1 C e P k T xiagg L_{GER} = - log\frac {e^{P^T_{y_i}}x^{agg}_i}{\sum^C_ {k=1}e^{P^T_kx^{agg}_i}}Lゲル=ログ_ _k = 1CePkTバツGG _ePy私はTバツGG _

  • 全体的な損失関数: 提案された FacesNet のトレーニング フェーズ中に、上記の 3 つの損失を同時に使用して、i 番目のサンプル グループの全体的な損失関数は次のように計算されます。

損失 = LIER + LCL + LGER 損失 = L_{IER} + L_{CL} + L_{GER}損失_=L私はER+LCL _+Lゲル

④個人のラベル更新戦略: 感情の多様性は、グループのメンバーが同じ社会的出来事の中で異なる感情を表現する可能性がある状況を記述するために使用されます [51]。グループの感情ラベルを単にすべての個人の感情にラベルを付けるために使用した場合、必然的に、グループの個々の感情に誤ったラベルが付けられる可能性があります。文献 [52] は、信頼できないラベルによる悪影響を最小限に抑えるために、個人的な感情のラベル付けをし直す戦略を提案しています。この研究に触発されて、私たちは、最大予測確率が割り当てられたグループ感情ラベルよりも大幅に高いグループ内の個人感情に再ラベルを付ける戦略を考案しました。個々の感情ラベルの更新戦略は次のように表すことができます:
yij ∗ = lmax , if P max − P yij > u ; lyij , それ以外の場合 ^*_{ij} = l_{max}, if P_{max} - P_{y_ {ij }} > u ; l_{y_{ij}}、それ以外の場合yij=マックス_もしPならマックス_Pyイジ>あなた;yイジその他の賢明2
) SceneNet: シーン情報を分類使用する

シーンの特徴には、人物、周囲の物体、背景などを含む画像全体のグローバル情報が含まれており、豊かなグループの感情的な手がかりを暗示します。

著者らは、画像全体からグローバル情報を抽出するために、SceneNet と呼ばれるサブネットワークを設計しました。SceneNet は、ResNet50-FPN [53] と、複数のスケールでグローバル (シーン) 特徴を抽出できる RoIAlign 関数 [54] で構成されます。SceneNet では、完全に接続された 2 つのレイヤーが GER タスクの分類子として使用されます。シーン特徴抽出の操作は次のように定義されます。xis = R o IA align ( ϕ ( I i ) ) x^s_i = RoIAlign(ϕ(I_i))バツs=RO I整列( ϕ ( I _ _ _ _ _私は))、s はシーンのインデックス、I i I_i私は x s I i x^sIi バツs Iiは i 番目の画像とそれに対応するグローバル (シーン) 特徴であり、ϕ( ) は ResNet50-FPN のネットワークです。RoIAlign() は、抽出された特徴を入力と正確に位置合わせするために、Mask R-CNN [54] で提案されたマルチスケール特徴融合関数を表します。さらに、グローバル (シーン) 特徴に基づく分類器をyscene = ω ( xs ) y_{scene} = ω(x^s)yシーン_ _=ω ( ×s )、ここで ω( ) は 2 つの完全に接続された層で構成される分類関数を示します。ysceneは y_scene です。ysCe neは、グローバル (シーン) の特徴に基づいて予測されるグループのセンチメントですトレーニング中に、SceneNet はクロスエントロピー損失を伴ってトレーニングされます。

3) ObjectsNet: オブジェクトの特徴を使用した分類

ObjectsNet は、オブジェクト情報を使用して群衆の感情を推測するために開発されました。これには、オブジェクトの特徴抽出、特徴の集約、グループ感情の分類が含まれます。CNN を使用してオブジェクトの特徴を抽出する以前の研究とは異なり、検出された意味情報をオブジェクトの特徴として使用し、画像内のすべてのオブジェクトに対する特徴抽出の大量の計算を回避します。

グループ内のオブジェクトを検出するには、事前学習済みのボトムアップ [55] ネットワークを使用して画像内のオブジェクトを検出し、検出された各オブジェクトに意味ラベルを割り当てます。[55] のオブジェクト検出器は、ボトムアップ メカニズム (Faster R-CNN に基づく) を採用してオブジェクト領域を検出し、MSCOCO データセットでトレーニングされています。

著者らは、BoW モデルを使用して、オブジェクトのセマンティック情報を BoW 機能に集約します。著者らはまず、各画像に対して検出された意味ラベルの周波数ベクトルをカウントし、次に用語周波数逆文書周波数 (TF-IDF) アルゴリズム [56] を使用して周波数ベクトル内のオブジェクト カテゴリの重みを調整します。最後に、調整された周波数ベクトルは、グループ感情分類の BoW 特徴として使用されます。

オブジェクトの BoW 特徴に基づいてグループの感情を分類するために、完全に接続された 3 つの層からなる分類子ネットワークを構築します (図 2 を参照)。入力レイヤーの次元は BoW フィーチャと同じです (1600 に設定)。非表示ノードの数は 512 に設定され、出力レイヤーの次元はセンチメント カテゴリの数と同じです。

最後に、クロスエントロピー損失を使用してバックプロパゲーションが実行されます。

4) 予測統合

この作業では、FacesNet、senenet、および ObjectsNet が 3 つの独立したグループ感情予測を生成します。これら 3 つのネットワークの予測結果を最終的な認識結果に統合すると、計算結果は次のようになります:
y = ayfaces + byscene + cyobjectss . t . a , b , c > = 0 a + b + c = 1 y = a y_{faces } + by_{シーン} + cy_{オブジェクト} \\ st a,b,c >=0 \\ a+b+c=1y=そしてyフェイス_ _+によって_シーン_ _+cy _オブジェクト_ _ _ _s _b c>=0ある+b+c=1

4. 実験と考察

Group Affective 2.0 (GAF2)[31]、Group Affective 3.0 (GAF3)[32]、GroupEmoW[18]

1) 実施内容

FacesNet をトレーニングするには、切り取った顔画像のサイズを 224 × 224 ピクセルに変更し、サイズ変更した顔画像に対して標準のデータ拡張 (ランダムな水平反転、±20 回転) を実行し、対比学習損失のハイパーパラメータ δ を 0.8 に設定し、次を使用します。学習率 0.001 の確率的勾配降下 (SGD) オプティマイザーで、4 つのグループごとに逆伝播します。

SceneNet のトレーニングでは、画像分類のために ImageNet で事前トレーニングされた ResNet50-FPN のバックボーンのみをトレーニングしました [59]。具体的には、入力画像のサイズを 800 × 800 ピクセルに変更し、学習率 0.001、バッチ サイズ 1 の SGD オプティマイザーを使用します。RoIAlign 層と FC 層を除くバックボーン層のパラメータを凍結します。

ObjectsNet のトレーニングでは、オブジェクトのセマンティック情報で構成される BoW 特徴を入力として使用し、学習率 0.001 およびバッチ サイズ 512 の SGD オプティマイザーを使用します。すべてのネットワークで 50 エポックの最適化プロセスを実行しました。

すべての実験は、Intel Xeon CPU E5-2673 v4 2.30 GHz および GeForce GTX 2080Ti を搭載した Linux サーバーで実行されます。

2) アブレーション実験

①異なる手がかり

②FaceNet: vggface + 自己融合; vggface + 自己融合 + 対照学習; vggface + 自己融合 + 対照学習 + ラベルの更新

③ 融合パラメータ

3) 結果の可視化

FacesNet における対照学習と自己融合の寄与を評価するために、t-SNE アルゴリズム [61] を使用して学習された特徴の分布を視覚化します。t-SNE は、深層学習モデルによって学習された特徴を 2 次元平面上で視覚化するための一般的な特徴次元削減手法です。t-SNE を使用して、個々の特徴を融合して得られる表現特徴を視覚化します。

おすすめ

転載: blog.csdn.net/qq_44930244/article/details/130885011