クロスモーダルreIDのためのJSIA-ReIDフレームワークの関連概念と構造分析

次に、ここにあるRGB赤外線人物の再識別のためのクロスモダリティペア画像生成のメモを読んで、記事で言及されているJSIA-ReIDメソッドの解釈確認してください

JSIA-ReIDの詳細な紹介:

この方法は、クロスモーダルペア画像を生成する生成モジュールGと、セットレベルおよびインスタンスレベルの位置合わせ機能を学習する機能位置合わせモジュールFを含みます。
ここに画像の説明を挿入

クロスモダリティのペア画像生成モジュール

ここに画像の説明を挿入
図2(b)に示すように、RGB-IRタスクでは、2つのモードからのトレーニング画像はペアになっていないため、モード間の差を減らすことがより困難になります。上記の困難を克服するために、この方法は特徴を分離し、変更された特徴からコーディングすることにより、ペアのイメージを生成すること提案ます画像はモーダル不変特徴とモーダル固有特徴に分解できると信じています。したがって、ペアになっていない画像については、スタイル情報を分離して交換することで、2つの画像が同じコンテンツ情報(ポーズやビューなど)を持っているが、スタイル情報が異なる(服の色など)ペア画像を生成できます。 。

もつれを解消します。

まず、この記事では3つのエンコーダーを使用して機能を分離しています。図では、式1および2の各文字の意味を確認できます。Eiは共通の機能で、Esは固有の機能です。
ここに画像の説明を挿入

ペア画像の生成。

ここに画像の説明を挿入

復興損失。

単純な監督は、分離された機能駆動して元の画像を再構成することです。
ここに画像の説明を挿入

サイクルの一貫性の喪失。

式(4)の再構成損失は、クロスモーダルペア画像の生成を監視できず、生成された画像には有効期限切れのコンテンツ(??)とスタイル情報が含まれていない可能性があります
ここに画像の説明を挿入
CycleGANから発想を得て、生成されたイメージを元のイメージに確実に戻すために、サイクルの一貫性の損失提案されています。このようにして、一貫性の損失により、サンプルを生成するスペースがさらに制限されます。サイクル整合性は次のように表すことができます。
ここに画像の説明を挿入

GANの喪失。

再構成損失と整合性損失によって生成された画像はファジーです。生成された画像をより現実的にするために、GAN損失を適用しました(Goodfellowは最初に、各モードで古典的な公式を提案しました。有効性)。特に、ここでは2つの弁別子を紹介します
ここに画像の説明を挿入

機能調整モジュール

セットレベルの機能の調整。

アライメントのコレクションレベルモーダル違いを低減するために、ほとんどのメソッドがします共有特徴空間に学習の異なるモダリティのためのデュアルパスとGAN損失を活用しようとする、しかし、これらの方法は、まだ根本的に除去されていないモード固有の情報、これらのモーダルの固有の情報は特徴空間にエンコードされ、全体的なパフォーマンスを損ないます。この方法では、
ここに画像の説明を挿入

インスタンスレベルの機能の調整。

このペーパーでは、ジェネレーターによって生成されたクロスモーダルペア画像(ペア画像)をインスタンスレベルの位置合わせに使用します。まず、インスタンスレベルのエンコーダーEilを使用して、セットレベルの整列された特徴Mを新しい特徴空間Tにマップします。つまり、T = Eil(M)です。
ここに画像の説明を挿入
このうち、p1 = C(t1)およびp2 = C(t2)は、x1およびx2がすべてのアイデンティティを予測する確率であり、t1およびt2は、特徴空間Tにおけるx1およびx2の特性です。

アイデンティティ弁別機能学習。

モーダル差を解決するために、下記;(鄭、ヤン、及びハウプトマン2016 Hermansの、バイエル、およびLeibe 2017)
我々のインスタンスレベル整列空間Tの特徴は、Tは、対応する特徴ベクトルVを与えるために、プールされた平均化されているマップ。実画像Xに従って、分類損失と三重項損失を使用して、特徴ベクトルVを最適化します。
ここに画像の説明を挿入

全体的な目的関数とテスト

包括的な目的関数:
ここに画像の説明を挿入

実験

データセット:

CM ReIDで一般的に使用されるデータセット:RegDB、SYSU-MM01、DBPerson-Recog-DB1
RegDB:合計412のタスクID。各人には、10の可視光画像と10の遠赤外線画像があり、半分はトレーニング用、残りの半分はテスト用です。
SYSU-MM01:491とキャラクターID、トレーニング用296、検証用99、テスト用96、287,628 RGB画像と15,792 IR画像。

評価方法

ここに画像の説明を挿入

実装の詳細(作成者がコードを開きます。詳細はコードを参照してください)

ここに画像の説明を挿入

SOTAと比較

ここに画像の説明を挿入

モデル分析

アブレーション実験

ここに画像の説明を挿入
読者がコレクションレベルの配置(SL)とインスタンスレベルの配置(IL)をよりよく理解できるように、著者は単一モーダル歩行者とクロスモーダル歩行者の類似性分布視覚化ます(ここでの類似性はコサイン距離を使用して測定されます) )。
ここに画像の説明を挿入
まず、図4(a)と図4(b)を比較すると、SLとILを使用しなくても、モデルをトレーニングセットに簡単に適合でき、テストセットに一般化できないことがわかります。図4(b)を見るとわかるように、2つの類似点は大きく重なり合っています。これは、トレーニングセットにID情報を単に適合させるだけでは、モーダル間の変更をあまり削減しないことを示しています。次に、図4©では、クラス内の類似性がより集中し、クラス間の類似性も大きくなっていることがわかります。これは、SLが不整合のいくつかのインスタンスを導入し、全体的なパフォーマンスに損傷を与えることも意味します。最後に、図4©を見ると、ILはクラス間類似性を変えずにクラス内類似性を改善していることがわかります。要約すると、実験結果はインスタンスレベルが非常に効果的であることを証明しています

パラメータ分析

ここに画像の説明を挿入

画像の視覚化

ここに画像の説明を挿入

元の記事を134件公開 38件を賞賛 90,000回の閲覧+

おすすめ

転載: blog.csdn.net/rytyy/article/details/105296486