歩行者の再識別-表現学習

歩行者再識別(ReID)-表現学習

序文

今日のコンテンツを記録する前に、歩行者の再認識に関するLuo Haoの論文のレビューを投稿したいと思います。これは、歩行者の再認識の分野を理解するのに非常に役立ちます。次のいくつかのブログもこのレビューに焦点を当てます。コンテンツは導入されました。
歩行者の再識別-LuoHaoはほとんど列を知っています。
ちなみに、歩行者の再識別のためのいくつかのオープンソースコードが添付されています:https:
//github.com/zhunzhong07/IDE-baseline-Market-1501
https:// github.com/KaiyangZhou/deep-person- reid
https://github.com/huanghoujing/person-reid-triplet-loss-baseline

学習概念の表現

前回のブログでは、トレーニングの損失は表現ベースの学習メトリック学習に分けることができると述べました。このブログは主に表現学習に焦点を当ててます。
表現学習に基づく方法は、歩行者の再識別に非常に一般的に使用される方法です。その特徴は、歩行者再識別の究極の目標は2つの画像間の類似性を学習することですが、表現学習の方法は、ネットワークをトレーニングするときに画像間の類似性を直接考慮せず、歩行者を再識別することです。認識タスク分類問題または検証問題として扱われます
具体的には、分類の問題は、歩行者のIDまたは属性をトレーニングラベルとして使用してモデルをトレーニングすることです。一度に1つの画像を入力するだけで十分です。検証の問題では、次のペア(2つ)を入力する必要があります。歩行者の写真、これら2つの写真が同じ歩行者に属しているかどうかをネットワークに学習させます。ここに画像の説明を挿入分類ネットワークは分類損失に対応します。青い線は、2つの画像が同じIDに属していることを示します。ネットワークをトレーニングする場合、対応するアクティブ化は同じニューロンであり、同様の特性を持っていることも示します。
検証ネットワークは毎回1組の写真を対象としており、赤は無関係を意味し、青は同じIDを意味します。
このタイプの方法の特徴は、ネットワークの最後の完全に接続された層(FC)が、最後に使用される画像特徴ベクトルを出力しないが、特性評価の学習損失を計算するためにSoftmax活性化関数を実行する必要があることです。この時点で対応するFCレイヤーは特徴ベクトルレイヤーとして機能します。

分類損失

各歩行者を分類問題のカテゴリとし、歩行者のIDをトレーニングデータのラベルとして使用してCNNネットワークをトレーニングする場合、このネットワーク損失はID損失と呼ばれ、ID損失のみのネットワークはIDと呼ばれます。埋め込みネットワーク(IDEインターネット)。ここに画像の説明を挿入図に示すように、トレーニングセット内の歩行者のIDの数は、ネットワークのカテゴリの数であり、特徴層の後に分類FCが続き、クロスエントロピー損失はSoftmax活性化関数によって計算されます。ただし、テストフェーズでは、最後から2番目のレイヤーの特徴ベクトルを検索に使用し、分類FCレイヤーを破棄します。これは、トレーニングセットとテストセットが2人の完全に独立した歩行者に対応しているためです。つまり、これらの異なる特徴に対応していることも意味します。そのため、FCレイヤーは再利用できなくなります。
その後、一部の研究者は、歩行者ID情報だけでは、十分な一般化能力を備えたモデルを学習するのに十分ではないことを発見しました(モデルは過剰に適合しました)。そのため、髪の色、性別、衣服などの属性情報が追加されました。これには、訓練されたネットワークが歩行者IDを予測するだけでなく、対応する属性を予測する必要があり、これにより属性が失われます。ネットワーク構造は次のとおりです。
ここに画像の説明を挿入

ネットワークの総損失は、ID損失とM属性損失で構成されます。
ここに画像の説明を挿入

検証損失

分類ネットワークとは異なり、検証ネットワークは毎回(2つの)画像のペアを入力し、同じシャムを入力して(ツインネットワーク:ワンショット問題を解決し、2つの与えられた画像の類似性を出力できます)、特徴を抽出します。ネットワークの出力2つの特徴ベクトルが融合され、2つのニューロンのみを持つFC層に入力され、2項分類損失(検証損失)が計算されます。このようにして、テストフェーズで2つの画像を直接入力して、それらの類似性を計算できます。
ただし、検証損失だけでは効果がないため、上記のID損失と組み合わせてトレーニングを行うことがよくあります。
ここに画像の説明を挿入上の図に示されている歩行者の再識別ネットワーク:

  • 歩行者の写真のいくつかのペアとして入力します
  • インターネット
    • 分類サブネット
    • 検証サブネット
  • 損失
    • 総損失はL = Lid + Lvです(各クロスエントロピー損失の特定の形式はレビューで言及されているため、繰り返しません)

十分なデータトレーニングの後、テスト中に再度テスト画像を入力するだけで、ネットワークは歩行者の再認識タスクの特徴を自動的に抽出します。

総括する

堅牢なReID機能は、ネットワークを構築することによって直接取得され、画像間の類似性は直接学習されません。

  • 通常、特徴学習を指導するために追加のFCレイヤーが必要であり、FCレイヤーはテストフェーズ中に破棄されます
  • ID損失のFC層の次元は、IDの数と同じです。トレーニングセットが大きすぎると、ネットワークが巨大になり、収束するようにトレーニングすることが困難になります。
  • ロステストを検証する際に2枚の画像を入力する必要があり、認識効率が非常に低い
  • 表現学習は一般的にトレーニングでより安定しており、結果は簡単に再現できます
  • 表現学習の分散トレーニングは通常、より成熟しています

おすすめ

転載: blog.csdn.net/qq_37747189/article/details/109551551