【ペーパーノート】JAFN

ビデオベースの個人再識別のための共同の注意深い時空間特徴集約

ビデオベースの個人再識別のための共同の注意深い時空間特徴集約

概要

本論文では、ビデオベースの顔認識基づく共同注意時空間特徴集約ネットワーク(JAFN)を提案し、同時に品質知覚モデルフレーム知覚モデル学習して、注意ベースの時空間特徴集約を取得します。
具体的には:

  • CNN使用して空間的特徴を学習し、LSTM導入して時間的特徴を個別に学習します特徴集約については、品質とフレームの顕著性スコアを生成するために2つの注意メカニズムを導入しました品質スコアは空間的特徴集約に焦点を合わせるために使用される画質を測定しフレームスコアは時間的特徴への注意を測定します。画像フレームの顕著性
  • プールする方法は、品質知覚とフレーム知覚の時間特性の空間的特性を濃縮するために使用されます残余学習、適応時空間特徴融合のためにLSTMとCNNの間に導入されます。
  • データバランスを使用して、ビデオベースのRe-IDデータセットのデータ不均衡の問題を軽減します

前書き

最近、ビデオベースのReIDに焦点を当てた研究が増えています。一部の研究方法では、最大プーリングまたは平均プーリングを介して機能を直接融合していますが、一部の画像は十分に鮮明ではないため、効果的な結果を得ることが困難です。この問題を解決するために、人の最も識別力のあるフレームを選択する方法に焦点を当てた研究がいくつか始まっています [10]の作業では、品質を意識したネットワークモデルを使用し、高品質の画像にさらに注意を払っています。

ただし、これらの方法では空間特性のみが考慮され、空間特性カメラの画角の変化の影響を受けやすくなります[11]と[12]の作品は、深い再帰型ネットワークRNNを使用して、ビデオに基づいて人々を再識別し、時間的特徴を抽出します。時間的特徴はまた、各フレームの特徴から平均して蓄積され、時間的特徴の学習に役立つフレームの異なる顕著性を無視します。

[14]で提案されている作業では、注意モデルを使用して、より重要な領域とフレームに注意を払い、RNNによって学習された機能をより効果的にします。ただし、RNNはすべてのシーケンスフレームのすべての周期情報を完全に統合することはできず、その出力初期の人間の画像フレームのいくつかの重要な情報を簡単に失う可能があることが知られています。時間機能には十分な外観情報がないため、パフォーマンスが制限されます。空間的および時間的特性をどのようにまとめるかは、依然として有望で未解決の問題です。

(記事の考えはここにあります!!!それは要約とほとんど同じです)

上記の問題に対応して、ビデオベースの人物再識別のための共同注意時空間特徴集約ネットワーク(JAFN)を提案します。
JAFNは、空間的特徴と時間的特徴を組み合わせて、より識別力のある特徴を取得し、それによってビデオベースのRe-IDのパフォーマンスを向上させます。
ここに画像の説明を挿入

図1に示すように、注意ベースの時空間特徴集約を取得するために、品質とフレームの知覚モデルを学習することを提案します。具体的には、CNNを使用して空間的特徴を学習し、LSTMを導入して時間的特徴を個別に学習します。特徴集約では、品質スコアとフレームスコアをそれぞれ生成する2つの注意メカニズムを導入します。品質スコアは空間特徴集約に焦点を当てた画質を測定し、フレームスコアは時間的特徴に寄与する画像フレームの顕著性を測定します。
これに基づいて、プーリング法を使用して、品質知覚の空間特性とフレーム知覚の時間特性を集中させます。2つの機能間の適応機能融合のために、LSTMとCNNの間に残余学習を導入して、パフォーマンスを向上させます。抽出された時間的特徴と参照空間的特徴の間に要素が追加され、より識別力のある融合特徴が得られます。
また、ビデオベースのリードデータセットのデータ不均衡の問題を軽減するためのデータバランスを提案します。

作業の貢献は次のように要約されます:
(1)ビデオベースの人の再認識のための空間的および時間的特徴を組み合わせた注意特徴の共同集約メカニズムが提案されます;
(2)残差学習メカニズムが提案されます。自動的に学習します。より識別力のある時空間的特徴の融合;
(3)さまざまな代表的なデータセットの包括的な比較と議論、および方法の有効性と一般化の分析。

関連作業

彼ら[31]は、より深いレベルの入力参照とより高いレベルの入力参照の間の要素に依存する残余学習フレームワークを提案し、残余の学習を通じて、より深く間接的で、理想的な最適マッピングによりよく適合します。目的の層の出力直接理解するよりも残差理解する方が簡単です[31]。この分類フレームワークのパフォーマンスの向上は、残余学習の有効性を証明しています。残余学習を使用して既存の深い歩行者再認識アーキテクチャを改善することは、適応型時空間特徴融合を実現するのに役立つ可能性があります。

方法

ここに画像の説明を挿入
JAFNには2つのブランチがあり、スコアと機能を生成するために使用されます。スコア生成ブランチは、品質スコアとフレームスコアを生成して、システムがより意味のある特徴に焦点を合わせるようにします。特徴生成ブランチは、それぞれ空間的特徴と時間的特徴を生成します。したがって、JAFNは主に、空間的特徴集約品質知覚注意、時間的特徴集約フレーム知覚注意、および時空間融合残余学習の3つの部分で構成されます。

また、JAFNをさらに改善するためにデータバランスを採用しています。

1.品質-注意

上の図に示すように、画像シーケンスは2つの完全畳み込みネットワーク(FCN1とFCN2)を通過して、それぞれ品質スコアと特徴表現を生成します品質認識アテンションモジュールの設計は[10]に触発されており、その目的は、空間的特徴の集約に対する入力画像の有用性を測定することです直感的には、高品質の画像は認識しやすく、低品質の画像は通常、集合的な表現にはあまり役立ちません。したがって、画像の解像度が高く、乱雑さが少ない場合、理論的には品質スコアが高くなり、より多くの情報を与えることができます。画像の特性に注意が払われています。
ここに画像の説明を挿入入力画像ベクトルsは、完全に接続された層FCN1に入り、3次元スコアベクトルを取得し、次にsigmod関数と正規化を通過して品質スコアを取得します。
FCN1層の特定のパラメーターは次のとおりです。
ここに画像の説明を挿入
期間中に、FC2層によって取得された空間特性が集約され、最終的に空間特性が形成されます。
式は次のとおりです。
ここに画像の説明を挿入
ここに画像の説明を挿入

2.フレーム-注意

空間特性は、視点の変化によってしばしば挑戦されます。このセクションでは、ビデオベースのRe-ID支援するために、より信頼性の高い時間的機能に焦点を当てることをお勧めします。リカレントニューラルネットワーク(LSTM)
を導入して、画像シーケンスの時間的特性を個別に学習します。同時に、フレームの特定のシーケンスは、時間的特徴抽出に対して異なる意味を持ちます。図1に示すように、時間的特徴には主に歩行などの周期的な情報が含まれているため、理論的には、脚や手の乱雑さのない画像はより安定した時間情報を提供できるため、これらの画像にはさらに注意を払う必要があります。これらの観察の刺激の下で、我々は注意の時間的特徴を得るためにフレームワーク認識注意モジュールを提案した。フレーム認識注意の原理図も図2に示されています。JAFNのLSTMは、CNNによって出力された特徴ベクトルを受け取ります。これは、ビデオシーケンス内の前の画像の特徴の蓄積に使用されます。LSTMの入力は、CNNの後に取得された特徴ベクトルです。LSTMは、人物シーケンスの長期依存関係を学習し、情報を長期間記憶します。次の式で表すことができます。



ここに画像の説明を挿入ここに画像の説明を挿入

3.残余学習メカニズム

残余学習メカニズム:
JAFNの場合、ツインネットワーク、3項損失、ソフトマックス損失を使用して最適化し、ラベル情報を最大限に活用し、正のサンプルをまとめ、負のサンプルをまとめます。
ツインネットワークと3値損失の場合、画像はペアに分割され、サンプルに正か負かが通知されます。この例では、ポジティブサンプルには3つのシーケンスが含まれています。つまり、「アンカー」、「ポジティブ」、「ネガティブ」、「アンカー」、「ポジティブ」は異なるカメラの下で同じ人物からのものであり、「ネガティブ」は異なるランダムカメラの人々からのものです。 。
式は次のとおりです。

ここに画像の説明を挿入

4.データバランス

JAFNモデルのパフォーマンスをさらに向上させるために、データバランシングを実行して、ID間のデータの不均衡の問題を軽減することを提案します。
個人のRe-IDタスクでは、ほとんどの画像がいくつかのカテゴリに集中しますが、いくつかの画像は他のデータセットに属します。これは、アルゴリズムがほとんどのグループに偏っているため、アルゴリズムの学習に困難をもたらします。この不整合を緩和するために、元の画像に基づいてアイデンティティ分布のバランスをとることを提案します。
自分自身に基づいて元のデータセットを増幅して、データ分布のバランスを取ります。つまり、各IDには同じ人物の画像が含まれます。具体的には、人物iにpi画像が含まれるN個のIDを含むデータセットDの場合、最大数pを見つけてターゲット拡張番号を設定し、元の画像をコピーして特定の歩行者の不十分なシーケンスを補います。

結果

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_37747189/article/details/110109638