道路抽出用のマルチ出力を備えたスタックUネット

概要

このホワイトペーパーでは、複数の出力(ハイブリッド損失関数)を持つ重複するU-Netを使用した道路抽出の新しい方法を提案し、トレーニングデータカテゴリの不均衡の問題を解決します。後処理メソッドは、再現率を向上させることができます(ロードマップのベクトル化と階層的なしきい値による最短経路検索)。通常のVGGネットワ​​ークと比較して、平均IOUの全体的な増加は20%を超える可能性があります。

1.はじめに

道路抽出の精度に影響を与える理由:

  1. 道路と建物は人工のオブジェクトであり、コンピュータービジョンの研究トレーニングデータセットで一般的な自然のオブジェクトとは大きく異なります。
  2. 予測結果は、小さな予測誤差(植生または建物の影による誤った道路および道路のギャップ)に対する許容度が低い
  3. CNNが一般的な知識とマッピング規則を学ぶのは困難です。
  4. パッチベースのモデルではマクロフィーチャをキャプチャできません。たとえば、道路ネットワークは接続されたグラフであり、道路は多くの場合最短経路をたどります。

この記事では、U-NetがVGGよりもmIOUが優れていることを証明し、ネットワークをさらに改善できるスタックドU-Netの新しいモデルを提案します。さらに、ターゲットの配置に共通の複数の出力が使用されます。後処理により、接続を切断することで再現率が向上します。最後に、混合関数はトレーニングデータの不均衡の問題を解決できます。

2.私たちのモデル

次の図は、スタックされたU-Net構造です。2つのU-Netを接続して複数の出力を可能にします。最初のU-Netは、道路トポロジや道路へのピクセルなどの補助情報を出力します。距離(道路までのピクセル距離)。2番目のU-Netは、各ピクセルを道路または非道路として分類することにより、道路マスクを生成します。また、精度を向上させるために、最初のU-Netの深さを3から5に拡大しました。

ここに画像の説明を挿入

2.1。スタッキングユニット

スタッキングユニットは、ネットワークの基本的な部分です。このユニットは、符号化ブロック(シアンと青でマーク)と復号ブロック(オレンジでマーク)で構成され、次の図に示すよう
ここに画像の説明を挿入
に、対応するレイヤー符号化ブロックと復号ブロックが連結接続されています。これらのショートカットにより、Decodingブロックが前のレイヤーの情報を利用できるようになります。U-Net構造は、中間層とより深い層のフィーチャーマップを組み合わせるのに役立ちます。より深い層には通常、より詳細な情報と位置情報を含む高度な機能が含まれています。スタックされた異なるユニット間の高速ショートカットには、同様の効果があります。これらのショートカットは、グラデーションを以前のレイヤーに直接伝達できるため、収束のトレーニングにも役立ちます。

2.2。ブロックのエンコードとデコード

ここに画像の説明を挿入
GoogleNetやInceptionネットワークと同様に、ブランチ融合ブロックを使用して、単一の3x3たたみ込み層ではなく、異なるサイズのフィルターからの機能マップを接続します。これにより、ネットワークはさまざまなサイズの機能を認識し、さまざまなチャネルで出力を組み合わせる方法を学習できます。

3.実装

このセクションでは、実装における平均IoUを改善するためのさまざまな最適化手法を紹介します

3.1。複数出力

セクション1で述べたように、CNNは構造的特徴(同じ道路の接続性や幅の一貫性など)ではなく、道路の外観特徴(色、テクスチャ、エッジなど)を学習することがよくあります。

そのため、ターゲット位置のCNNモデルと人間の姿勢推定(Huamn推定)にインスパイアされ、道路ピクセル分類出力を出力するだけでなく、次の2つの機能も出力して、構造的特徴を学習させます。

  • 道路ピクセルの発信度
  • ピクセルから最も近い道路までの距離

さまざまな道路ピクセルの度合いはグラウンドトゥルースに基づいて自動的に計算されます。これにより、ネットワークに出力ブランチをカウントさせることで道路の接続性を改善できます。

ピクセルと最も近い道路との間の距離は、距離変換によって計算されます。これは、道路境界がはっきりしないピクセル分類の精度を向上させるのに役立ちます。たとえば、未舗装の道路がフィールドと植生の半分に覆われている道路に混在しています[14]。これは、分類タスクでよく使用されるソフトラベルに似ています。図4は、これらの追加出力を示しています
ここに画像の説明を挿入

3.2。後処理

道路抽出のためのさまざまな後処理技術が文献で提案されています。たとえば、中心線抽出のための構造化SVM(構造化SVM)[15]またはマルコフランダムフィールド[9]の使用、ノイズの多いデータのための特別なCNN [8]の使用、ジャンクションポイントを介してサンプリングすることによりラインを回復します。そして、ヒューリスティック探索[11]は、道路のギャップを埋めます。

ここでは、開回路を接続する最短経路探索の信頼しきい値を下げることにより、新しい後処理技術を開発します。具体的には、最初にラスター道路予測画像をベクトル形式に変換して、ギャップを埋めて偽の道路をトリミングし(ブリッジのギャップと偽の道路をトリミング)、次に道路ベクトルに基づいてレンダリングします(レンダリング)ラスターイメージを元の予測とマージします。これは、IoU計算にラスターイメージが必要なためです(次に、道路ベクトルからラスターイメージをレンダリングし、IoU計算にラスターイメージを必要とするため、元の予測とマージします)。
3.2.1
道路中心線の抽出[?]と同じ方法を使用して、グレースケール予測画像から道路中心線を抽出します。まず、しきい値を使用してグレースケール画像を白黒画像に変換します。

次に、等高線を一様にサンプリングし、ボロノイ線図を描きます。しきい値画像で完全に覆われた線分のみが保持され、これらの線分は道路の中心線を形成します。道路スタブのトリミングや交差点の合流など、道路ネットワークをきれいにするためにさまざまな最適化策を採用しました(図5を参照)。

道路ベクトルからラスターイメージを描画するときは、道路の中心線の平均幅(中心から75%グレースケールまで)に沿って下降しきい値を使用して計算される道路の幅を知る必要があります。
ここに画像の説明を挿入
3.2.2壊れた道路
接続すると、再現率が大幅に向上します。抽出されたベクター道路ネットワークの行き止まりから始めて、最短経路アルゴリズムを使用して、別の既存の道路との可能な接続を検索します。
ここに画像の説明を挿入
piはピクセルの道路分類確率であるため、各ピクセルiのコストを割り当てます。上記の中心線抽出ステップで設定されたしきい値は超えていませんが、これにより、最短経路は道路になる可能性が高いピクセルを優先します。また、中心線は通常、予測の確率が高いため、曲線道路に沿ったショートカットではなく、道路の中心線を優先します。精度と速度をさらに向上させるために、しきい値を下げる複数の反復で最短経路検索を適用しました。また、各反復で最大コストを設定するため、特定の範囲内の接続のみを検索します。アルゴリズム1を参照してください。ここで、U(s、δ)はsと半径δの近傍を表します。

使用する減少するしきい値ここに画像の説明を挿入のリストは{0.5、0.2、0.1、0.05、0.01}で、δは100ピクセルです。

3.3。ハイブリッド損失関数

アンバランスなトレーニングデータでクロスエントロピー損失を使用すると、収束速度が遅くなり、精度が低下します。損失関数LにJaccard損失を追加します。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここで、yとy 'はそれぞれターゲットベクトルと予測ベクトルを示し、λはJaccard損失の重みです[18]。クロスエントロピー損失の場合、サンプリングポイントの不均衡(負のポイントは97%、正のポイントは3%)により、後方コーン角度に向かう勾配方向が減少し(図7)、特に初期段階で局所的な最適化につながります。Jaccardの損失はバックコーナーを効果的に「持ち上げ」、ローカルの最適化を回避するのに役立ちます。図8を参照してください。

4.実験

私たちの実験は、DeepGlobeデータセット[19]で行われました。私たちのネットワークはTensorFlowを使用してトレーニングされました。
ここに画像の説明を挿入
ローテーション、フリッピング、クロッピングなどのデータ拡張を含むデータ拡張により、過剰適合を回避できます。最初のU-Netを事前トレーニングし、ネットワーク全体をさまざまな設定で微調整しました。Adamオプティマイザーを初期学習率0.001で使用します。損失が過去10エポック以内に減少しなくなった場合は、学習率をさらに10分の1に減らします。

マルチ出力により、U-NetのmIoUを約2%増やすことができます(図10)。損失関数の異なるλ値は、精度に重要な影響を与えます。適切なλ= 30はパフォーマンスを最大化できます(表1)。さらに、「クロスエントロピー」が含まれていない場合、すべての負のサンプルの勾配が消えるため、ネットワークは収束できません。パッチのオーバーラップは、精度の向上にも役立ちます。表2は、さまざまな設定の全体的なスコアを示しています。

ここに画像の説明を挿入

5。結論

ここに画像の説明を挿入
現在の主な問題は、農村部の道路が非常に隠されており、グランドトゥルースが不明確であるため、農村部の予測が良くないことです。

12件のオリジナル記事を公開しました 賞賛されました4 訪問1266

おすすめ

転載: blog.csdn.net/qq_36321330/article/details/105462165