論文タイトル: University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization
論文アドレス: https://arxiv.org/abs/2002.12186
コードアドレス: https://github.com/layumi/University1652 - ベースライン
データセットのダウンロード:リクエストに記入し、[email protected] に送信します。
はじめに(歩行者の再識別との関係):
- ドローンの発展では、ドローン視点での目標位置の測位が基本となっており、ドローンの視点画像と衛星画像を組み合わせることで、目標の建物の位置を判断することができます。
- 主な困難は、歩行者の再識別タスクと一致しており、視点をまたいでの画像マッチングです。歩行者再識別タスクにおけるカメラ間マッチング、およびドローン位置特定タスクにおける垂直視点マッチング (ストリートビュー <-> ドローン <-> 衛星)
- 歩行者の再識別は現在比較的順調に開発されており、データセットも誰からも高く評価されています。地理位置特定のタスクは始まったばかりですが、マッチングの難易度は比較的高く、まだ多くの余地があります。 。
- 歩行者の再識別はプライバシーポリシーである程度の考慮事項があり、人体の生体情報が収集されるが、ドローンの建築上の位置付けは科学研究の倫理・プライバシーの観点から比較的問題が少ない。
主なタスクの説明:
- タスク 1 - ドローンの視点からのターゲットの位置特定 (ドローン -> 衛星): ドローンの視点からの写真またはビデオが与えられた場合、このタスクは最も類似した衛星画像を見つけることです。衛星画像には GPS が搭載されていることが多いため、人間によるオブジェクトの位置特定が可能です。 -機械。
- タスク 2 - ドローン ナビゲーション (衛星 -> ドローン): 衛星の視点からの地図が与えられると、ドローンはどこを飛んだか (ドローンの視点からの地図) を見つけようとします。見つかった場合は、飛行履歴に従って飛行して戻り、ナビゲーション操作を完了します。
データ収集:
- 私たちは Wiki を使用して 72 の大学の建物名を検索し、Google マップで見つからなかった広場、キャンパス、および一部の場所を削除しました。以下の図は、上位 100 の建物名を示しています (https://en.wikipedia.org/wiki/Category:Buildings_and_structions_by_university_or_college)
- Google Earthを使用して、以下の動画のように建物に螺旋状に接近するドローンの視点からの画像をシミュレーションしています。
- 同時に、建物ごとに衛星画像やGoogleマップのストリートビュー画像も収集しました。
- 以前のデータセットは、地上画像と衛星画像のペアのみを収集することがよくありました。中間媒体としてドローンパース画像を提供すると同時に、ドローンを利用することで樹木の遮蔽を軽減し、衛星画像とのマッチングを容易にします。(以下の表はトレーニングセットの比較です)
- データセットの統計は次のとおりです: (トレーニングとテストは 33 大学と 39 大学、合計 72 大学であり、重複はありません)
データライセンス:
- 研究リリースに関しては Google の公式ガイドライン (https://www.google.com/permissions/geoguidelines/) に従います。
- 同時に、Tokyo 24/7 や CVUSA などの以前のプロジェクトやその他のデータセットによれば、学校のメールボックスはデータの公開に使用されています。
ベンチマーク:
- 前回の記事のインスタンスロスを主に利用しています。この記事は2017年11月に公開されました。最近、画像とテキストの相互検索でACM TOMM 2020を受賞しました。興味があれば、これを使用して数万のカテゴリを分類することができます. . CNN を使用して 100,000 枚の画像を分類する (https://zhuanlan.zhihu.com/p/33163432
) - 主なアイデアは、最終的な分類層の重みを共有することですが、以前の特徴抽出ネットワークは依然として分離されています。
pytorch コードは https://github.com/layumi/University1652-Baseline/blob/master/model.py#L230-L253 にあります。フロント モデルは異なる場合がありますが、最終的な分類子は同じモデルを使用します。 - ベースラインを提供することで、一方ではデータセットの有効性を検証し、他方では誰もが変更できる基本コードを提供します。
実験結果:
実験結果はいくつかの側面で検証されています。
-
ドローンの視点は、ストリート ビューの測位よりも優れていますか。オクルージョンが少ないためです。同時に、ドローンのもう 1 つの利点は、屋根の写真を撮影できることです。この点は実験によって検証されています。
-
私たちが学習した特徴は、大規模なデータセットから学習した一般的な特徴よりも優れています。
-
定性的結果: (左側は UAV ターゲットの位置、右側は UAV ナビゲーション)
-
私たちのモデルは実際のドローンビデオで使用できますか?
実際の UAV 画像をシミュレートした UAV 画像を検索するという 2 つの実験に分けました。
衛星画像を実際のドローン画像で検索することは、
まだ非常に困難であることがわかります。
-
コントラスト損失、トリプレット損失など、一般的に使用されるいくつかのベースラインを比較します。
-
他のデータセットでのインスタンスの損失 (両方とも VGG16 を使用):
-
従来の小さな画像検索データセットに移行します。
ここで、Fs は衛星画像 + UAV 画像のサブネットワーク、Fg は地上画像のサブネットワークです。Fs は垂直方向の変化を学習し、Fg は水平方向の変化を学習すると推測されるため、従来の建物データセットの場合は、地上または地上ネットワーク Fg で撮影する方が良いと考えられます。
最後に、データセットにいくつかのサンプルを提供しました。クリックしてご覧ください ~
コードアドレス: https://github.com/layumi/University1652-Baseline
【ドローン画像を探索する】
【
衛星画像を探索する】
【
ストリートビュー画像を探索する
】
読んでいただきありがとうございます、議論を歓迎します~~