最近開始された Amazon クラウド テクノロジー [AI For Good - 2022 リモートセンシング光学画像物体検出チャレンジ] では、10,000 x 10,000 を超えるサイズの衛星リモートセンシング画像が多くの出場者にとって頭痛の種となることがよくありました。同時に、リモートセンシング画像内のターゲットのサイズと角度は大きく異なるため、一般的な CV フレームワークが高速かつ正確なターゲット認識を達成することも困難になります。
大多数の参加者の作品を最適化するという問題を解決するために、イベント公式は、Amazon Cloud Technology のシニア アプリケーション サイエンティストである Wang Henan を特別に招待し、イベントのリファレンス フレームをライブで共有しました。
DOTA データセットの概要
DOTA は、航空画像における物体検出のための大規模なデータセットです。この方法は、航空画像内の物体検出器の開発と評価に使用できます。これらの画像はさまざまなセンサーやプラットフォームから取得されます。各画像のサイズは 800 × 800 ~ 20000 × 20000 ピクセルで、さまざまなサイズ、方向、形状を示すオブジェクトが含まれています。DOTA 画像内のインスタンスには、航空画像解釈の専門家によって任意の (8 自由度) 四角形の注釈が付けられます。
ロッカー光学像ターゲット検出アルゴリズム
● 物体検出アルゴリズムとフレームワーク
❖ ヨロフ5:
https://github.com/ultralytics/yolov5
YOLOv5 は、COCO データセットで事前トレーニングされた物体検出アーキテクチャおよびモデルのファミリーであり、未来ビジョン AI 手法に関する Ultralytics のオープンソース研究を表しており、何千時間もの研究開発から得られた教訓とベスト プラクティスが組み込まれています。
❖ ディテクトロン2:
https://github.com/facebookresearch/detectron2
Detectron2 は、Facebook AI Research の次世代ライブラリであり、最先端の検出およびセグメンテーション アルゴリズムを提供します。これは Detectron と Maskrcnn-benchmark の後継であり、Facebook の多くのコンピューター ビジョン研究プロジェクトと運用アプリケーションをサポートしています。
❖ グルーオンCV:
https://cv.gluon.ai/model_zoo/detection.html
GluonCV は、コンピューター ビジョンにおける最先端 (SOTA) 深層学習アルゴリズムの実装を提供します。エンジニア、研究者、学生が製品のプロトタイプを迅速に作成し、新しいアイデアを検証し、コンピューター ビジョンを学習できるように設計されています。
❖パドルCV:
https://github.com/PaddlePaddle/models/tree/develop/PaddleCV
PaddleCV は、PaddlePaddle 深層学習フレームワークに基づいて開発されたインテリジェント ビジョン ツール、アルゴリズム、モデル、データのオープンソース プロジェクトです。Baidu の長年にわたる CV 分野での深い蓄積により、PaddleCV には強力なコアパワーが提供されています。PaddleCV は、画像分類、オブジェクト検出、画像セグメンテーション、ビデオ分類、アクション位置特定、オブジェクト追跡、画像生成、テキスト認識、メトリクス学習、キーポイント検出、3D ビジョン、その他の CV テクノロジーをカバーする豊富な CV モデルを統合しています。
● 回転ボックスオブジェクト検出アルゴリズムとフレームワーク
衛星リモートセンシング画像におけるターゲット検出には、さまざまな角度のオブジェクトを正確に認識する必要があるため、検出ロジックに合わせてターゲットの角度を回転できるアルゴリズムを見つけることが非常に重要です。以下に、回転フレーム ターゲット検出用の参照に値するオープンソース フレームワークをいくつか示します。
❖AerialDetection:https://github.com/dingjiansw101/AerialDetection
❖S2anet:https://github.com/csuhan/s2anet
❖RoITransformer:https://github.com/dingjiansw101/RoITransformer_DOTA
❖より高速な R-CNN OBB:https://github.com/jessemelpolio/Faster_RCNN_for_DOTA
❖JDet:https://github.com/Jittor/JDet
❖yolov5_obb:https://github.com/hukaixuan19970627/yolov5_obb
❖MMDetection:https://github.com/open-mmlab/mmdetection
Amazon SageMaker の機能
このコンテストでは、参加者が Amazon SageMaker にコードを提出して実行し、結果を得る必要があるため、Amazon SageMaker の機能と使用方法を理解し、使いこなすことで、参加エクスペリエンスとコードチューニングの効率が大幅に向上します。
● Amazon SageMaker の機能概要
●コンテナの紹介
Amazon SageMaker は、プレーヤーがコードを直接アップロードし、プラットフォームの組み込みコンテナ設定に依存してコードを実行することをサポートします。さらに、プレイヤーは独自のカスタマイズ ニーズを満たすために独自のコンテナ イメージを構成することもできます。
質問に答えます
Q: ネットワーク遅延を解決するにはどうすればよいですか?
A: 要件.txt では国内のソースを使用できます。例:
「-i https://opentuna.cn/pypi/web/simple/」
Q: 現在サポートされている依存パッケージとバージョン要件は何ですか?
A: 詳細については、イベント詳細ページ - データ - 「ミラー環境とインストール パッケージのバージョン要件」を参照してください。現在、mmcv と mmdet はデフォルトで構成されていません。PyTorch 環境を使用することをお勧めします。
Q: 環境設定の失敗を解決するにはどうすればよいですか?
A: 以下のリンクから、このコンテストの鏡像構成を参照できます。
https://github.com/aws/deep-learning-containers/blob/master/available_images.md
実際にイメージをローカル シミュレーションの実行にダウンロードすることもできます。
$(aws ecr get-login --region cn-northwest-1 --registry-ids 727897471807 --no-include-email)
ドッカー プル 727897471807.dkr.ecr.cn-northwest-1.amazonaws.com.cn/pytorch-training:1.10-gpu-py38
ドッカー プル 727897471807.dkr.ecr.cn-northwest-1.amazonaws.com.cn/tensorflow-training:2.7-gpu-py38