論文のタイトル: 効率的な人物検索のための規範を意識した埋め込み
コード: https://github.com/DeanChan/NAE4PS
この記事は、DiChen、shanshan zhang 先生、jianyang 先生、Bernt Schiele の CVPR2020 の作品で、最近勉強していて、Feature Norm について多くのインスピレーションを与えてくれました。私の理解が十分に深くないかもしれませんが、ヒスイを引き寄せるためにレンガを投げただけです。貴重なご意見をありがとうございます。歩行者再識別コラム ( https://zhuanlan.zhihu.com/personReid ) への投稿も歓迎します。
最初に余談をさせていただきますが、以前、球面の著者の 1 人である Zhiding Yu 氏は、特徴角度が最も重要であるが、特徴ノルムには多くの情報が反映されていないと語っていました。これについては、彼の最近の著作「Angular Visual Hardness」( https://arxiv.org/pdf/1912.02279.pdf )で詳しく説明されており、主な中心的な考え方は、モデル スコア (信頼スコア) が完全には一致していないということです。
https://wyliu.com/papers/ChenAVH_slides.pdf より
ここでは、最終モデルの信頼度をノルムと角度に分解します。
記事では、3つのヒートマップを比較して人を選びました。人々の選択は、モデルの信頼性と高い相関関係はなく、大きさ、つまりノルムとも高い相関関係はありませんが、角度と高い相関関係があることがわかります (下の図に示すように)。
何:
良い。本題に戻ります。この規範を意識した埋め込み研究の問題は、1 段階の人物検索です。相対的な 2 段階では、最初に歩行者を検出し、次に人物の再 ID 学習を実行します。
この記事では、ノルムと角度の解きほぐし、人物リードと歩行者の検出を同時に研究します。
-
ノルムを使用して検出結果を表現します(人間かどうか)
2. 角度を使用して人物を再識別する(つまり、歩行者を再識別するタスク)
どうやって:
-
損失: 以下に示すとおり
理想的には、色付きのものが reID の特徴であり、黒いものが検出された背景の特徴です。
-
リード部分は依然として OIM 損失 (クロスエントロピーのバリアント) を使用し、負のサンプルを導入しているため、色付きの特徴は比較的オープンです。
-
検出損失はスカラーに適用されますが、これが標準です。ここで、r が数値であることを強調する必要があります。人物の場合は 1 に、背景の場合は 0、つまりボールの中心に縮小します。したがって、黒い特徴は球の中心近くに集まっています。
パイプライン全体は次のとおりです。
推論中に、IOU が高くない候補に対して何らかの抑制を実行することもできます。具体的には、検出の信頼スコアを乗算します。
さらに、作者はアテンション マップと同様のネットワークを作成するためにいくつかの拡張も行いました。重要なことは、roiを取得したときにすぐにプールしないことです。さらにいくつかの手順を実行し、最後にプールします。
ここでは、gt bboxとの重複領域を1、非重複領域を0に設定します。検出の r マップを学習しましょう。エッジにはバイリニアがあり滑らかになります。
実験:
ここに単語のスペルが間違っていますが、問題ありません。結果は依然として高いです。検出器の結果が向上し、リード部分も改善されていることがわかります。
私の理解は比較的浅いので、議論することを歓迎します、、
-
レンガと翡翠の導入、クロスエントロピー損失を学習した後、特徴ノルムは何を表現するのかという質問です。ソフトマックスを装着する理由がどんどん大きくなっているので全く意味がないのでしょうか?
最後に、皆さんも私の他の記事をチェックしてください。ご親切にありがとうございます。
Zheng Zhedong: [新しい UAV データセット] 歩行者の再識別から UAV ターゲットの測位まで
Zheng Zhedong: CNN を使用して 100,000 のカテゴリの画像を分類