【エッジ検出】CaseNet自作PPT

以下は、グループミーティングレポートのPPTであり、一緒に学習しやすくするために投稿されています。

3つのパートで簡単に紹介します。最初のパートでは、直感的な理解と数学的レベルから問題の説明を紹介し、2番目のパートでは、作成者が提案したマルチクラス損失関数を紹介し、最後にコアネットワークアーキテクチャを紹介します。基本的なフレームワークを最初に紹介します。著者がこのペーパーのフレームワークをどのように思いついたかを分析します。

 

これは、ストリートビュー画像のセマンティックエッジ検出レンダリングです。左上隅が元の画像、右上隅がグラウンドトゥルース、最後にこの記事のレンダリングです。

まず、従来のエッジ検出を比較します。これは、実際には2値問題と多変量問題の違いです。セマンティックエッジ検出は、エッジを検出するだけでなく、各エッジピクセルに1つ以上のセマンティックカテゴリを割り当てます。

ここでのこの倍数は、実際にはマルチラベル問題であることを示しています。最後に、左の写真を見てみましょう。カラフルなものが見えます。実際には、さまざまな色がさまざまなカテゴリを表しています。最も目立つ赤は道路を表しています。左上隅の凡例を注意深く見ると、 、建物や歩行者など、いくつかの組み合わせた色を見ることができます。緑はマルチラベルを表します。つまり、同じピクセルに複数のカテゴリのセマンティックラベルが割り当てられます。

次に、この問題を数学レベルから紹介し、入力と出力に簡単に焦点を当てます。入力は画像で、出力はエッジマップです。対応する出力は、 K番目のセマンティクスに対応するピクセルのエッジ確率です。カテゴリー。このホワイトペーパーの3つの主な貢献は、マルチクラス学習フレームワーク、新しいネストされた構造、およびマルチクラス損失関数です。次に、単純なマルチクラス損失関数を紹介します。

 

これは、各カテゴリのバイナリ分類を実行するクロスエントロピーと見なすことができます(バイナリクロスエントロピーは、バイナリ分類問題で一般的に使用される損失損失関数です)。最後に、k個の結果が重ね合わされます。2番目の分類は、ピクセルがエッジであるかどうかを判断することです。ここで、マルチ分類では、ピクセルが何であるかを判断する必要があります。作成者は、ピクセルをK個の2クラスの問題に分割します。つまり、ピクセルがエッジであるかどうかを判断します。最初のクラス、2番目のクラスからK番目のクラス、クラスの確率、そして結果を積み重ねます。

ここで、βはサンプル数のスキューを説明するための画像内の非エッジピクセルのパーセンテージです。

 

 すぐにコアネットワークアーキテクチャの概要を説明します。

 1つ目は、 ResNet-101フレームワークを使用した基本的なネットワークで、どのような変更が加えられたかを見てみましょう。

基本的なアーキテクチャを注意深く分析しましょう。主にここで紫色の分類ブロック、1×1の畳み込みと双一次アップサンプリングを見てみましょう。ピクセルがK番目のクラスに属するエッジ確率は、シグモイド単位によって計算されます。

このパートでは、深く監視されたネストされたアーキテクチャを紹介し、ここでHEDネットワークについて簡単に説明します。これは、この記事のこのパートでは主にHEDに言及しているためです。ただし、彼はバイナリエッジ検出のみを実行し、この記事の多変量問題に拡張する必要があるバイナリ問題を解決します。この記事では、上記の紫色の分類モジュールを各残差ブロックの出力に接続して、5つのサイド分類アクティベーションマップを生成します。 。最後に、5つのアクティベーションマップがスライスカスケードによって融合されます。

 [紙の読み方](エッジ検出関連)HED:全体的にネストされたエッジ検出_Clark-djのブログ-CSDNブログ

スライス融合部分の式は式2で表され、深い監視とは6つの損失を計算することを意味します。

 

基本アーキテクチャと詳細に監視されたネストされたアーキテクチャを確認した後、これら2つのアーキテクチャがタスクに適しているかどうかを分析します。

それでは、この記事のモデルについて説明しましょう。そのさまざまなモジュールを簡単に見てみましょう。

 

 

各モジュールは以前と現在で詳細に紹介されましたが、灰色の特徴抽出モジュールと紫色の分類モジュールの違いを見てみましょう。

 PPTが必要な場合は、プライベートメッセージを送ってください。

おすすめ

転載: blog.csdn.net/dujuancao11/article/details/123969195