読むのに 10 分: シドニー工科大学は CVPR 2019 に 8 つの論文を選択しました。彼らは何を研究しているのですか?

コンピュータビジョンに関する世界最高峰の会議であるIEEE CVPR 2019 (Computer Vision and Pattern Recognition、コンピュータビジョンとパターン認識に関するIEEE国際会議)が6月に米国ロングビーチで開催されます。この会議への参加が認められます。コンピュータビジョン分野における最高レベルの研究カンファレンスとして、CVPR が採択した論文は、2019 年のコンピュータビジョン分野における最新かつ最高の技術レベルと今後の開発動向を表しています。CVPRの公式ウェブサイトによると、今年は5,160件以上の論文が会議に投稿され、1,300件の論文が受理され、昨年より32.7%増加した(2018年は979件の論文が受理された)。

シドニー工科大学のYang Yi教授のグループから、口頭報告論文3件を含む合計8件の論文がこのCVPRカンファレンスに受理されました(口頭受理率288/5160 = 5.58%)。一部の受理された論文は、Baidu、NVIDIA、Google およびその他の企業と協力して、歩行者の再識別/生成、転移学習、ネットワーク構造検索、画像生成、ネットワーク圧縮の分野で進歩を遂げています。

  • 人物の再識別のための共同識別生成学習(口頭)

論文リンク: https://arxiv.org/abs/1904.07223

Zhedong Zheng、Xiaodong Yang、Zhiding Yu、Liang Zheng、Yi Yang、Jan Kautz

(ビデオ バックアップ リンク: ステーション B: https://www.bilibili.com/video/av51439240/Tencent : https://v.qq.com/x/page/t0867x53ady.html )

歩行者の再識別の難しさは、異なるカメラ(カメラの画角/照明/人の姿勢などを含む)の下での人々のクラス内の変化にあります。この論文では、パーツ マッチング損失を使用せず、歩行者の再識別の効果を向上させるために、モデルにさらに多くのトレーニング画像を「見える」ようにするだけです。これらのトレーニング画像はすべて GAN によって生成されます。ICCV2017 で GAN を使用して歩行者画像を生成した最初の記事 [1] と比較して、この論文は生成される画像の品質を大幅に向上させるだけでなく、歩行者再識別モデルと生成モデルを有機的に組み合わせています。歩行者再識別モデルから抽出された歩行者の特徴は GAN の入力ベクトルとして使用でき、GAN によって生成された画像は歩行者再識別モデルの微調整に使用できます。

[1] 鄭、浙東、梁鄭、宜陽。「gan によって生成されたラベルのないサンプルは、in vitro での個人の再識別ベースラインを向上させます。」ICCV 2017にて。

 

  • ドメインシフトを詳しく見る: セマンティクスの一貫性のあるドメイン適応に対するカテゴリレベルの敵対者 (口頭)

論文リンク: https://arxiv.org/pdf/1809.09478.pdf

コード: https://github.com/RoyalVane/CLAN

Yawei Luo、Liang Zheng、Tao Guan、Junqing Yu、Yi Yang

深層学習に基づくセマンティック セグメンテーション手法は効果的ですが、教師ありトレーニングには大量の人による注釈が必要です。3D ゲームなどのコンピュータの仮想画像技術を利用すると、ほぼ無制限の自動ラベル付けデータを取得できます。ただし、仮想画像と実画像の間には重大な視覚的な違い (ドメイン シフト) があり、その結果、実画像データセット上のトレーニング済みモデルのセグメンテーション精度が低くなります。従来の方法では、敵対的トレーニングを利用して、ソース ドメイン (S) とターゲット ドメイン (T) の異なる分布間の差異を減らし、ドメイン間のネットワークの汎化能力を強化します。ただし、このタイプの方法では、同じ意味特徴間の意味的一貫性を無視して、全体的な特徴分布を揃えることしかできず、トレーニング プロセス中に負の転移が発生しやすくなります。この困難に対処するために、著者は、Co-training + Adversarial Training の方法を採用し、2 つの相互に排他的な分類器を使用し、分類器によって予測された差に従って、ソース ドメインとターゲット ドメインの特徴の局所的な意味的一致を推定します。特徴のクラスごとに敵対的損失の重みを動的に計算することで、ドメイン適応型セマンティック セグメンテーションにおけるセマンティックの不一致と負の転送の問題を解決します。

 

  • 深層畳み込みニューラル ネットワークの高速化のための幾何学的中央値によるフィルター プルーニング (口頭)

論文リンク:https://arxiv.org/abs/1811.00250

コード: https://github.com/he-y/filter-pruning-geometric-median

ヤン・ヘ、ピン・リウ、ツィウェイ・ワン、ジーラン・フー、イー・ヤン

この論文では、ニューラル ネットワークを圧縮および高速化するための、新しいフィルターベースの幾何学的中央値枝刈りアルゴリズムを提案します。既存の枝刈りアルゴリズムは一般に、小さなノルム (Lp ノルム) を持つフィルターはネットワークのパフォーマンスに影響を与えることなく削除できると考えています。したがって、フィルターのノルムには 2 つの要件があります。1 つはフィルター ノルム分布の標準偏差が大きくなければならないこと、もう 1 つは最小ノルムが十分に小さい必要があることです。しかし、実際の事前トレーニング済みニューラル ネットワーク モデルはこれら 2 つの要件を満たしていないため、いくつかの重要なフィルターが誤って切断され、パフォーマンスに影響を与えます。幾何学的な観点から、本論文では、フィルタの幾何学的中心にはすべてのフィルタの共通情報が含まれているため、幾何学的中心に近いフィルタを削除できると考えています。この新しい枝刈り方法は、フィルタ ノルムに関する以前の枝刈りアルゴリズムの要件を打ち破り、枝刈りアルゴリズムの適応性を向上させ、より優れたパフォーマンスを実現します。

 

  • DM-GAN: テキストから画像への合成のための動的メモリ生成敵対的ネットワーク

論文リンク: https://arxiv.org/abs/1904.01310

ミンフェン・ジュー、ピンボ・パン、ウェイ・チェン、イー・ヤン

テキストに基づいた画像生成は、近年の新興研究分野です。現在の方法では、まず大まかな初期画像を生成し、次にその画像を最適化して高解像度の実画像を生成します。しかし、最新の方法には依然として 2 つの問題があります。 (1) 現在の方法の結果は、初期画像の品質に大きく依存します。(2) 各単語は画像内容に応じて異なる情報量を持っているが、現状の手法では単語の重要度が2段階で同じであるため、生成された画像は正確な意味情報を反映していない。この研究では、高品質の画像を生成する動的メモリ生成敵対的ネットワーク (DM-GAN) を提案します。我々は、粗い初期画像を最適化する動的メモリモジュールを提案する。これにより、初期画像の生成が不十分であっても高品質の画像を生成できる。DM-GAN には、初期画像に基づいて重要なテキスト情報を選択するメモリ書き込みゲートと、画像の特徴とテキスト情報を適応的に融合するフィードバック ゲートも含まれており、それによって生成された画像が正確なテキストの意味情報を反映するようになります。COCO および CUB データセットでモデルを評価します。実験結果は、私たちの方法が FID と IS の両方のメトリクスと現実性において現在の方法よりも優れていることを示しています。

 

  • 不変性の問題: ドメイン適応型人物再識別のための模範的なメモリ

論文リンク: https://arxiv.org/abs/1904.01990

コード: https://github.com/zhunzhong07/ECN

Zhun Zhong、Liang Zheng、Zhiming Luo、Shaozi Li

データセット間のシナリオでは、特にソース データセットとターゲット データセットが大きく異なる場合、個人再識別モデルのパフォーマンスが大きな影響を受けることがよくあります。現在の主流の方法は主に、2 つのデータ セット間の特徴分布の差を減らすことによって、新しいデータ セットに対するモデルの堅牢性を向上させます。ただし、これらの方法では、ターゲット データセットのドメイン内変動は無視されます。これには、ターゲット ドメインのパフォーマンスに影響を与える重要な要素が含まれています。この研究では、ターゲット データセットに対して 3 つの潜在的なドメイン不変性 (インスタンス不変性、カメラ不変性、近傍不変性) が提案されています。同時に、著者は、モデルのトレーニング中に提案された 3 つの不変性制約を効果的に導入できるようにする、例ベースのメモリ モジュールを提案します。実験の結果、この方法は人物再識別の 3 つのデータセットにまたがるシーンで最良の結果が得られ、既存の方法を大幅に上回っていることが示されています。

 

  • 4 GPU 時間で堅牢なニューラル アーキテクチャを探索

論文リンク: https://github.com/DXY/GDAS/blob/master/data/GDAS.pdf

ドン・シュアンイー、イー・ヤン

ニューラル アーキテクチャ検索 (NAS) は、現在非常に人気があり、挑戦的な方向性です。現在の NAS 手法のほとんどは強化学習または遺伝的アルゴリズムに基づいており、大量の GPU リソースを消費します。本稿では、微分可能なネットワーク構造サンプラーを用いた勾配ベースの探索手法(微分可能なアーキテクチャサンプラーを使用した勾配ベースの探索、GDAS)を提案します。これにより、探索による GPU リソースの消費を効果的に削減できます。GDAS は、有向非巡回グラフ (DAG) を使用して検索空間全体を表します。この DAG に対して、GDAS は微分可能サンプラーを設計し、訓練セットでは DAG 内の各ネットワーク構造のパラメーターを最適化し、検証セットではこの微分可能ニューラル ネットワーク サンプラーを最適化します。実験によると、GPU 上では、GDAS は数時間の検索時間で CIFAR-10 データセット上で高性能のネットワーク構造を見つけることができます。

 

  • 3D 屋内ナビゲーション用 Sim-Real ジョイント補強転写

論文リンク: https://arxiv.org/abs/1904.03895

フォンダー・ジュー、リンチャオ・朱、イー・ヤン

強化学習に基づく屋内ナビゲーションは、最近のホットなトピックです。ロボットは室内のランダムな地点からスタートし、指示に従って目標位置に到着します。3次元再構成のデータセットはコンピュータグラフィックスでレンダリングされた仮想データセットに比べて収集が難しく、データ量も少ないため、本論文では仮想データセット上で強化学習を転送するエンドツーエンドモデルを提案する。転移学習法による実際のデータセットへのポリシーの転送。論文では、基礎となる画像特徴の移行タスクと、対立学習と模倣学習の2つの側面からの高次元強化戦略を完了し、元の手法と比較して20%以上の改善を達成しました。

 

  • 教師なしドメイン適応のための対照適応ネットワーク

論文リンク: https://arxiv.org/pdf/1901.00976.pdf

Guoliang Kang、Lu Jiang、Yi Yang、Alexander G Hauptmann

教師なしドメイン適応の目的は、ラベル付きソース ドメイン データとラベルなしターゲット ドメイン データを利用して、ターゲット ドメイン データに対する優れた予測パフォーマンスを取得することです。以前の方法では、ドメインの違いを排除するプロセスでカテゴリ情報が十分に活用されていないため、不整合が発生し、汎化パフォーマンスに影響を及ぼします。これらの問題を解決するために、本論文では、クラス内およびクラス間のドメイン差異を記述する新しいドメイン差異指標「対比ドメイン差異」を提案し、この指標を最適化する「対比適応ネットワーク」を提案する。新しいクラス対応のサンプリング方法を設計し、交互の更新でネットワークをエンドツーエンドで最適化します。2 つの標準データセットで既存の方法よりも優れたパフォーマンスを実現します。

おすすめ

転載: blog.csdn.net/Layumi1993/article/details/89842706