HybridNets の重要なコンテンツの翻訳。主な改善点は、バックボーン ネットワークが EfficientNet-B3 に置き換えられ、ネック ネットワークが FPN と BiFPN に置き換えられ、セグメンテーション損失が Focal loss + Tversky loss に変更され、カテゴリの不均衡の問題が改善されます。
まとめ:
ピアツーピア ネットワークは、マルチタスクにおいてますます重要になっています。この顕著な例は、自動運転におけるドライバー認識システムの重要性です。この論文では、マルチタスクのためのエンドツーエンドの知覚ネットワークを体系的に研究し、精度を向上させるためのいくつかの重要な最適化方法を提案します。まず、加重双方向特徴ネットワークに基づく効率的なセグメンテーションヘッドおよび境界/カテゴリ予測ネットワークを提案します。第二に,重み付けされた双方向特徴ネットワークの各層に対する自動的にカスタマイズされたアンカーボックス法を提案した。第三に、ネットワークのバランスをとり、最適化するための効果的なトレーニング損失とトレーニング戦略が提案されます。これらの最適化に基づいて、交通物体の検出、走行可能領域の分割、車線境界線の検出などのマルチタスクを実行する、既存の SOTA Rate よりも精度の高いエンドツーエンドの認識ネットワークを HybridNet と呼ぶことを提案します。HybridNets は BDD100K データセットでテストされ、mAP は 77.3%、mIoU は 31.6%、パラメータは 1,283 万、浮動小数点演算は 15.6GFLOP でした。さらに、視覚認識タスクをリアルタイムで実行できるため、マルチタスクの問題に対する実用的かつ正確なソリューションとなります。コードはhttps://github.com/datvuthanh/HybridNetsにあります。
キーワード: エンドツーエンドネットワーク、マルチタスク学習、検出、セグメンテーション、自動運転
1 はじめに
1.1 背景
全体として、この論文の貢献は次のとおりです。
1. エンドツーエンドのネットワークである HybridNets は、BDD100K で非常に優れた結果を達成しており、リアルタイムの速度も検出できます。
2. どのデータ セットでも、加重双方向フィーチャ ネットワークのレベルごとにアンカー ボックスを自動的にカスタマイズできます。
3. マルチタスクネットワークのバランスをとり、最適化するためのトレーニング損失関数とトレーニング戦略が提案されています。
1.2 関連作品
2 方法論
2.1 ネットワーク構造
入力は 640×384、各特徴マップのサイズは です。
2.2 エンコーダ
バックボーン ネットワークは機能を抽出するために使用され、ネットワークの重要な部分です。ネットワークの各部分が各サブタスクで良好なパフォーマンスを達成するのに役立ちます。バックボーン ネットワークは EfficientNet-B3 を使用します。
FPN の制限は、フィーチャ情報が単一の方法から取得されることです。そこでネックネットワークにはEfficientDetベースのBiFPNを採用します。BiFPN は、トップダウンおよびボトムアップの転送パスなど、ステージ全体で異なるスケールの機能を融合できます。
2.3 デコーダ
デコーダは、セグメンテーション ヘッドと検出ヘッドの 2 つの部分で構成されます。セグメンテーション ヘッドは、走行可能エリア、車線境界線、背景の 3 つのカテゴリを出力し、セグメンテーション ヘッドの入力はバックボーン ネットワークの P2です。検出ヘッドは BiFPN の出力です。
2.4 損失関数とトレーニング
検出損失のカテゴリ損失とフォアグラウンド損失は Focal loss を使用し、バウンディング ボックス回帰損失は最適化された smoothL1 損失を使用します。
セグメンテーション損失はトベルスキー損失とフォーカル損失を組み合わせたもので、トベルスキー損失はクラスの不均衡の問題を改善できます。
3つのテスト
3.1 実験のセットアップ
RTX3090、エポック = 200、バッチサイズ = 16
3.4 実験結果
ターゲットの検出
走行可能エリアのセグメンテーション
車線検出