数日前、NVIDIA は DG-Net のソース コードをオープンソース化しました。この CVPR19 口頭論文を確認してみましょう。
この論文は、NVIDIA、シドニー工科大学 (UTS)、オーストラリア国立大学 (ANU) の研究者が CVPR19 で口頭発表した論文「Joint Discriminative and Generative Learning for Person Re-identification」です。深層学習モデルのトレーニングには大量のラベル付きデータが必要になることがよくありますが、大量のデータを収集してラベルを付けることは多くの場合困難です。著者は、生成されたデータを使用して歩行者を再識別するタスクのトレーニングを支援する方法を検討しています。高品質な歩行者画像を生成し、歩行者再識別モデルと融合することで、歩行者生成の品質と歩行者再識別の精度が同時に向上します。
論文リンク: https://arxiv.org/abs/1904.07223
Station B ビデオ: https://www.bilibili.com/video/av51439240/Tencent
ビデオ: https://v.qq.com/x/page/t0867x53ady .html
コードアドレス: https://github.com/NVlabs/DG-Net
コード実行効果:(トレーニング 100000 回反復)
開発環境:
- Python 3.6
- fp32 精度を使用する場合は GPU メモリ >= 15G
- GPU メモリ >= 10G fp16 精度を使用すると、ビデオ メモリを節約できます
- ナムピー
- PyTorch 1.0+
- [オプション] APEX (fp16 を使用してインストールします)
データセットのダウンロード アドレス:
Market-1501 データセットが使用されます http://www.liangzheng.com.cn/Project/project_reid.html
トレーニングされたモデルをダウンロードします。
- 百度ネットディスク: https://pan.baidu.com/s/1503831XfW0y4g3PHir91yw パスワード: rqvf
- GoogleDrive:https://drive.google.com/open?id=1lL18FZX1uZMWKzaZOuPe3IuAdfUYyJKH
テスト結果は次のとおりです。
- 歩行者の再識別の精度:
- 生成された歩行者画像:
トレーニング用のコマンドは簡単です。
オプションは yaml ファイルに組み込まれており、フル精度の fp32 で実行すると、約 15G のビデオ メモリを消費します。
python train.py --config configs/latest.yaml
半精度トレーニングを使用する場合、使用されるビデオ メモリは約 10G のみです。
python train.py --config configs/latest-fp16.yaml
トレーニングログはtensorboardを使用して表示できます
tensorboard --logdir logs/latest
著者について
この記事の筆頭著者である Zheng Zhedong は、UTS のコンピュータ サイエンス学部の博士課程の学生で、2021 年 6 月に卒業予定です。この論文は、NVIDIA でのインターンシップの成果です。
鄭哲東氏はこれまでに8本の論文を発表している。そのうちの 1 つは、300 回以上引用されている ICCV17 スポットライトです。GAN で生成された画像を使用した人物再識別支援のための特徴学習が初めて提案されています。TOMM ジャーナルの論文が、200 件以上引用され、Web of Science の 2018 年の高引用論文に選ばれました。同時に、歩行者再識別問題のベンチマーク コードもコミュニティに提供し、Github 上に 1,000 個以上のスターが付けられ、広く採用されました。
さらに、論文の他の著者には、Nvidia Research Institute のビデオ分野の専門家である Yang Xiaodong 氏、顔分野の専門家である Yu Zhiding 氏 (LargeMargin の著者である Sphere Face 氏)、CVPR 博士 (口頭中間ドラフト) が含まれます。 、NVIDIA Research 副社長の Jan Kautz 氏。