ペーパーリーディング(AAAI2020)Xモダリティによる赤外線可視クロスモーダル人物再識別

動機

この記事では、赤外線可視のクロスモーダル歩行者再識別タスクに焦点を当てています。つまり、赤外線画像が入力として使用され、可視光画像が取得されます。赤外線画像と可視画像のモードの違いにより、IV-ReIDは困難になります。モードの違いを減らすために、このホワイトペーパーでは、2つのモードの問題を3つのモードの問題に変換する補助中間モードXを紹介します。XモダリティはRGBモダリティの再表現であり、クロスモーダル学習の問題を簡単に解決できます。
この記事で述べたクロスモーダルReIDフレームワークには、2つの主要な部分があります。

  1. まず、Xモードジェネレーターは、自己監視学習を通じてXモードを生成する軽量Xモードジェネレーターです。Xモードは自己監視学習に基づいて軽量ネットワークによって生成さます。Xモード画像はVから学習されます(VIsible) 。
  2. 第2に、重みを共有するXIVクロスモーダル機能学習者 XIVフレームワークでは、クロスモーダル学習は3つのモダリティからの情報を受け入れモーダル差異の制約によってガイドされます。
    Xモードの助けを借りて、可視画像と赤外線画像が接続され、クロスモーダル画像をより簡単に一致させ、より良い結果を得ることができます。図1を参照してください。
    ここに画像の説明を挿入

関連研究と最新技術

自己管理学習

完全教師あり学習の代替として、自己教師あり学習は、クロスモーダルタスクでかなりの結果を達成しています。たとえば、画像とコンテキストのクロスモーダル学習(Doersch、Gupta、およびEfros 2015; Gomez et al。2017)、指示と軌跡のクロスモーダル学習(Wang et al。2019b)など。クロスモーダル自己監視学習アルゴリズムは、モーダル構造を使用して、共起モダリティのトレーニング監視を提供しようとします(Patel et al。2019)。シングルモードの自己監視型歩行者再識別の問題を考慮して(Sun et al。2019、Perceiveどこto focus:Learning visibilityaware part-level features for partial person reidentification.CVPRでは)、部分的に見える知覚モデルを提案し、自主学習を使用して領域を認識します。特に、歩行者の画像を水平方向にランダムに切り取り、対応するラベルを自動的に生成しました。

クロスモーダルReID

IV-ReIDの問題については、すべての方法がモダリティ間の相関機能を学習しようとしています。Wu et al。(SUデータセットを提案したWu et al。2017)は、共通空間のクロスモーダル機能を学習するために、wo-streamディープゼロパディングネットワークを提案しました。Ye et al。(Ye et
al。2018a。Ye Mang、目に見える熱人物識別のための階層的識別学習。AAAIで。)特徴学習とメトリック学習を導入する2段階のフレームワークを示します。彼ら(2018b。二重制約付きトップランキングによる可視熱人の再識別)は、可視機能と赤外線機能の間の距離を短縮するためのクロスモーダル二重制約を提案しました。Hao(Hao、Y。; Wang、N。; Li、J。; and Gao、X. 2019. Hsme:Hypersphere manifest embedding for visible Thermal person reidentification。in AAAI、)がエンドツーエンドを提案金型内および金型間の変化を抑制するために、デュアルフロー超球多様体がモデルに埋め込まれています。(Feng、Lai、And Xie 2019)によって提案されたフレームワークは、モーダル関連の情報を使用して、モーダルごとに個別のネットワークを構築することにより、モーダル固有の表現を抽出します。

この記事に最も関連するのは、3つのGANベースのメソッド、cmGAN(Dai et al。2018)、D2RL(Wang et al。2019c)、およびAlignGAN(Wang et al。2019a)です 。CmGANは、異なるモダリティの生成的敵対ネットワークを使用します特徴的な機能について学びます。D2RLはGANを使用して、モードの違いと外観の違いをそれぞれ減らします。同様に、AlignGANは、統合されたGANフレームワーク内でピクセルと機能の配置を実現します。ただし、この記事との違いは明らかです。

  1. まず、重み共有ネットワークを使用して元の2つのモードを直接処理するcmGANと比較して、このペーパーでは、設計されたモーダルギャップ制約を使用して補助Xモードを使用し、元の2つのモード間のモーダルギャップを狭めます。また、学習の困難を軽減するために、軽量のネットワークと少量のオーバーヘッドのみを使用してください。
  2. 次に、D2RLでは、GANを使用して可視(または赤外線)画像を対応する赤外線(または可視)画像に変換します。次に、可視光(または赤外線)画像と可視光(または赤外線)画像を重ね合わせて、入力としてバックボーンに入力される4チャネルのマ​​ルチスペクトル画像を形成します。対照的に、単一のXモダリティを生成し、効果的なクロスモーダル学習のために3つの3チャネルモダリティを使用します。それは可視光を発生させるために赤外線D2RLマップの不確実性を回避し、いないため、私たちの新しいXIVクロスモーダル学習戦略がより好ましいする必要があります今、直接人気のバックボーンを使用することができますあまりにも多くの改築を必要としています。
  3. さらに、第3に、AlignGANでは、GANは可視光画像を疑似赤外線画像にマッピングし、生成された疑似赤外線画像を元の可視光画像にマッピングできることが必要です。第1に、赤外線画像は、特にGANでの空間変換によって、可視光画像に比べて情報が少ないため、(誤った)赤外線生成の可視光画像の誤った変換がまだ存在しています。この記事では、RGBを直接IRに変換するのではなく、可視画像と赤外線画像の中間的な媒体について学びます。
  4. 一般に、GANメソッドはトレーニングがより難しく、この記事で提案されているメソッドはより簡単になります。
    ここに画像の説明を挿入

貢献

  • 中間補助Xモードの導入に基づいて、新しいクロスモーダルReIDメソッドが提案されています
  • 自己教師あり学習に基づくXモード画像ジェネレータが提案されています
  • モーダル差分制約は、クロスモーダル情報の交換をガイドするように設計されています
  • SYSU-MM01データセットに7%の超SOTA効果を達成

方法と詳細

ここに画像の説明を挿入

特定の実装:

ここに画像の説明を挿入
ここに画像の説明を挿入

Xモーダル画像ジェネレータ

可視光画像は深度モデルに基づいているため、歩行者や衣服の外観は通常、高レベルの意味情報に適用されます。対照的に、赤外線画像には不可視光の単一チャネルのみが含まれ、主な意味情報は画像の構造と形状のみです。比較的、私たちは、赤外線モードと可視光モードを調整するために、付随する補助的な自己監視モードを学びました。
図2に示すように、軽量のXモードジェネレーターは可視光画像を入力として受け取り、可視光と赤外線モードの情報を吸収します。この非線形軽量ネットワークには、2つの1 * 1たたみ込み層とReLU活性化層が含まれています。3チャンネルの画像は、最初の11のたたみ込み層を介して(IR画像のような)単一チャンネル画像に変換されます。ReLUが非線形処理を行った後、別の1 1畳み込みを介して、3チャネルの画像(Xモード画像)に復元されます。
可視画像から自動的に生成されたラベルのX画像は、追加の自己管理情報を提供します。他の補助構造(GANベースなど)と比較して、このペーパーはより軽量で効率的なネットワークを実装します。このネットワークは、GANよりも最適化が容易です。さらに、IRとRGBの主なモーダルの違いは、チャネル空間に残ります。これらのガンベースの方法は、チャネル次元で情報を再構築するだけでなく、空間次元で情報を再構築して、元の空間構造情報を破壊します。対照的に、より合理的な1×1たたみ込み層を使用してXモードを学習します。これは、可視モードからチャネル情報を再構築するプロセスにすぎません。

体重共有機能学習者

Xモーダルジェネレーターに加えて、このペーパーではXIVクロスモーダル機能学習器を提案します。機能学習器は、図2に示すように、効率的なベースライン(Luo Haoの強力なベースライン)に基づいています。モーダル画像は、共通の特徴空間を通じてクロスモーダル情報を学習するための入力として使用されます。重みが共有されるため、フレームワークはよりコンパクトになります。トレーニングプロセス中に、フレームワークはこれら3つのモダリティを共同でトレーニングします。学習の困難を緩和するためのXモード。テスト段階では赤外線X赤外線可視光の類似度を式2として計算し、最高のパフォーマンスを得ました。

モーダル拘束(CMGおよびMRG)

以前の方法では、主に特徴の識別性高めるために、正の赤外線と可視のペアと負の赤外線と可視ペアを使用することを検討していました。比較すると、赤外線モード、可視モード、およびXモードを使用して、モーダル差分制約を共同で形成します。
最初のMが赤外線モードを表し、2番目のMがXモードを表し、3番目のMが可視モードを表す、サイズ3Mの整然としたバッチを形成します。このようにして、クロスモーダル制約を計算できます。
ここに画像の説明を挿入

最適化

ここに画像の説明を挿入

実験計画

データセットSYSU-MM01およびRegDB
実装の詳細:
SOTAとの比較

討論

元の記事を134件公開 38件を賞賛 90,000回の閲覧+

おすすめ

転載: blog.csdn.net/rytyy/article/details/105390182