ディープ ラーニングの論文: PE-YOLO: ダーク オブジェクト検出のためのピラミッド強化ネットワークとその PyTorch 実装

ディープ ラーニングの論文: PE-YOLO: Pyramid Enhancement Network for Dark Object Detection とその PyTorch 実装
PE-YOLO: Pyramid Enhancement Network for Dark Object Detection
PDF: https://arxiv.org/pdf/2307.10953v1.pdf
PyTorch コード: https ://github.com/shanglianlm0525/CvPytorch
PyTorch コード: https://github.com/shanglianlm0525/PyTorch-Networks

1。概要

現在の物体検出モデルは、多くのベンチマーク データセットで良好な結果を達成していますが、暗い状況で物体を検出することは依然として大きな課題です。この問題を解決するために、私たちは Pyramid Enhanced Network (PENet) を提案し、それを YOLOv3 と組み合わせて、PE-YOLO という名前の暗い物体検出フレームワークを構築します。まず、PENet はラプラシアン ピラミッドを使用して、画像を解像度の異なる 4 つのコンポーネントに分解します。具体的には、画像の詳細を強調するための詳細処理モジュール (DPM) を提案します。これは、コンテキスト ブランチとエッジ ブランチで構成されます。さらに、低周波のセマンティクスを捕捉し、高周波ノイズを防ぐための低周波強調フィルタ (LEF) を提案します。PE-YOLO はエンドツーエンドの共同トレーニング方法を採用し、トレーニング プロセスを簡素化するために通常の検出損失のみを使用します。私たちは、低照度物体検出データセット ExDark で実験を行い、私たちの方法の有効性を実証します。
ここに画像の説明を挿入します

2 ペヨロ

ここに画像の説明を挿入します

2-1 PEネット

画像のラプラシアン ピラミッドは次のように定義されます。
ここに画像の説明を挿入します
ここでG ( x ) G(x)G ( x )は次のように定義されます。
ここに画像の説明を挿入します
PENet は、ラプラシアン ピラミッドを通じて画像をさまざまな解像度のコンポーネントに分解します。
ここに画像の説明を挿入します
この画像から、ラプラシアン ピラミッドは下から上へのグローバルな情報により多くの注意を払っているのに対し、逆にローカルな詳細により多くの注意を払っていることがわかります。この情報は画像のダウンサンプリング プロセス中に失われ、PENet が強化する必要があるオブジェクトでもあります。

2-2 ディテールアップ

詳細処理モジュール (DPM) は、ラプラシアン ピラミッドのコンポーネントを強化するために使用されます。DPM は、コンテキスト ブランチエッジ ブランチに分かれています。コンテキスト ブランチは、リモートの依存関係をキャプチャすることでコンテキスト情報を取得し、コンポーネントに対してグローバルな拡張を実行します。Edge ブランチは、 2 つの異なる方向で Sobel オペレーターを使用して画像の勾配を計算し、エッジを取得し、コンポーネントのテクスチャを強化します。

コンテキスト ブランチ: 残差ブロックを使用して、長距離依存関係を取得する前後に特徴を処理し、残差学習スキップ接続を通じて豊富な低周波情報を転送します。最初の残差ブロックはフィーチャのチャネルを 3 から 32 に変更し、2 番目の残差ブロックはフィーチャのチャネルを 32 から 3 に変更します。シーン内のグローバル情報をキャプチャすることは、低照度の強化などの低レベルの視覚タスクに有益です。

エッジ ブランチ: ソーベル オペレーターは、ガウス フィルターと微分導出を組み合わせた離散オペレーターです。勾配近似を計算することで画像のエッジを見つけます。ソーベル オペレーターは水平方向と垂直方向に使用され、エッジ情報は畳み込みフィルターを通じて再抽出され、残差は情報の転送を強化するために使用されます。これにより、画像の質感特性をさらに高めることができます。

DPMの詳細情報は以下のとおりです。
ここに画像の説明を挿入します

2-3 低域強調フィルター

各スケールの成分のうち、低周波成分には画像内のほとんどの意味情報が含まれており、検出器予測の重要な情報となります。再構成された画像のセマンティクスを強化するために、この論文では、コンポーネント内の低周波情報をキャプチャする低周波強調フィルター (LEF) を提案します。コンポーネント f ∈ Rh×w×3 を仮定し、まずそれを畳み込み層を通じて f ∈ Rh×w×32 に変換します。次に、動的ローパス フィルターを使用して低周波情報をキャプチャし、平均プーリングを特徴フィルターに使用して、カットオフ周波数を下回る情報のみを通過させます。異なるセマンティクスの低周波数しきい値は異なります。Inception のマルチスケール構造を利用して、1×1、2×2、3×3、6×6 のサイズで適応平均プーリングが使用され、各スケールの最後にアップサンプリングが使用されて元のサイズが復元されます。特徴です。さまざまなカーネル サイズの平均プーリングにより、ローパス フィルターが形成されます。

LEFの詳細情報は以下の通りです。
ここに画像の説明を挿入します

3 実験

ここに画像の説明を挿入します
ここに画像の説明を挿入します
ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/shanglianlm/article/details/132808775