接続関連の論文、コードコレクション

2018年

非ローカルニューラルネットワーク

コード:https ://paperswithcode.com/paper/non-local-neural-networks

要約:畳み込み操作とループ操作はどちらも、一度に1つのローカルネイバーを処理するビルディングブロックです。このホワイトペーパーでは、長期的な依存関係をキャプチャするためのビルディングブロックの一般的なファミリとして、非ローカル操作を提案します。コンピュータビジョンの古典的な非局所平均法[4]に触発されて、私たちの非局所操作は、すべての位置特徴の加重和として位置の応答を計算します。このビルディングブロックは、多くのコンピュータビジョンアーキテクチャにプラグインできます。ビデオ分類のタスクでは、特別な機能がなくても、非ローカルモデルは、KineticsおよびAnagramデータセットで現在の競合他社の勝者と競合したり、それを上回ったりする可能性があります。静止画像認識では、非ローカルモデルにより、オブジェクトの検出/セグメンテーションとポーズの推定が向上します。

ここに画像の説明を挿入

2019年

ConnNet:顕著なセグメンテーションのための長距離関係を意識したピクセル接続ネットワーク

要約:顕著性セグメンテーションの目的。これは、多くの高度なコンピュータービジョンアプリケーションの根底にある重要でありながら挑戦的なタスクです。意味的に認識されたピクセルを顕著な領域にグループ化する必要があり、グローバルなマルチスケールコンテキストを活用して適切なローカル推論を行うことでメリットが得られます。以前の研究では、洗練されたネットワークや複雑なグラフィカルモデルを含む複雑なマルチステップ手順を利用して、2クラスのセグメンテーション問題として解決することがよくありました。セマンティック顕著性セグメンテーションは、単純で直感的なピクセルペアベースの接続予測タスクとして再定義することで効果的に対処できると主張します。顕著なオブジェクトは、隣接するピクセル間のセマンティック認識接続によって自然にグループ化できるという直感に従って、純粋な接続ネットワーク(ConnNet)を提案します。ConnNetは、画像に埋め込まれたマルチレベルのカスケードコンテキストと長距離ピクセルの関係を利用して、各ピクセルとその隣接ピクセルの接続確率を予測します。2つのタスク、顕著なオブジェクトのセグメンテーションと顕著なインスタンスのセグメンテーションに関するアプローチを調査し、さまざまなネットワークアーキテクチャのバイナリセグメンテーションタスクではなく、これらのタスクを接続とし​​てモデル化することで一貫した改善が得られることを示します。あまり洗練されていないアプローチにより推論時間を短縮しながら、既存の方法よりも優れているか、同等の最先端のパフォーマンスを実現します。
ここに画像の説明を挿入
論文の寄稿:

  • 接続モデリングは、従来のセグメンテーションタスクの顕著なセグメンテーションの優れた代替手段になる可能性があることを示しています。セグメンテーションタスク用にトレーニングされた同じアーキテクチャと私たちの方法を比較すると、ConnNetは幅広いベンチマークデータセットでセグメンテーションネットワークよりも優れていることがわかります。
  • いくつかのデータセットで以前の最先端の方法よりも優れているが、その単純さのために推論時間を大幅に短縮する、顕著なオブジェクトのセグメンテーションのための方法を開発します。また、このアイデアをインスタンスレベルの顕著性セグメンテーションのタスクに拡張します。
  • さまざまなピクセル接続モデリング手法が全体的なパフォーマンスに与える影響を調査します。

カメラとディープニューラルネットワークを使用した道路亀裂検査の費用効果の高いソリューション

要約:舗装の亀裂の自動検出は、高度道路交通インフラシステムの開発における重要な研究分野です。このペーパーでは、移動中の車両の後部に商用グレードのアクションカメラGoProを設置することで、道路の亀裂を検出するための費用対効果の高いソリューションを紹介します。一方、条件付きワッサースタイン生成敵対的ネットワークと接続グラフを組み合わせた道路亀裂検出法も提案されています。この方法では、ジェネレーターとして121のデコンボリューション層、ディスクリミネーターとして5層の完全畳み込みネットワークを備えた多層特徴融合ニューラルネットワークを使用します。デコンボリューションレイヤーに関連する散乱出力の問題を克服するために、接続グラフが導入され、提案された接続の亀裂情報が表されます。提案された方法は、公開されているデータセットと私たちが収集したデータでテストされています。結果は、提案された方法が、他の既存の方法と比較して、適合率、再現率、およびF1スコアの点で最先端のパフォーマンスを達成していることを示しています。
ここに画像の説明を挿入

セマンティックセグメンテーションのための非対称非局所ニューラルネットワーク

コード:https ://paperswithcode.com/paper/asymmetric-non-local-neural-networks-for
要約:非ローカルモジュールは、特に有用なセマンティックセグメンテーション手法として機能しますが、法外な計算とGPUメモリフットプリントの批判に悩まされています。この論文では、非対称ピラミッド非局所ブロック(APNB)と非対称融合非局所ブロック(AFNB)の2つの顕著なコンポーネントを持つ非対称非局所ニューラルネットワークのセマンティックセグメンテーションを提案します。APNBはピラミッドサンプリングモジュールを利用しており、パフォーマンスを犠牲にすることなく計算とメモリ消費を大幅に削減します。AFNBはAPNBから派生し、長期的な依存関係を十分に考慮してさまざまなレベルの機能を融合し、パフォーマンスを大幅に向上させます。セマンティックセグメンテーションベンチマークに関する広範な実験は、私たちの作業の有効性と効率性を示しています。特に、都市景観テストセットで81.3mIoUの最先端のパフォーマンスを報告します。256×128入力の場合、APNBはGP​​U上の非ネイティブブロックよりも6倍高速で、GPU実行メモリホッグよりも28倍高速です。
ここに画像の説明を挿入

2020

迅速な注意を払ったリアルタイムのセマンティックセグメンテーション

コード:https
://github.com/feinanshan/FANet要約:CNNベースのディープセマンティックセグメンテーションモデルでは、高精度は豊富な空間コンテキスト(大きな受容野)と細かい空間詳細(高解像度)に依存します。これらは両方とも高い計算コスト。この論文では、課題に対処し、高解像度の画像とビデオのセマンティックセグメンテーションの最先端のパフォーマンスを実現する新しいアーキテクチャを提案します。提案されたアーキテクチャは、計算コストの何分の1かで同じ豊富な空間コンテキストをキャプチャするように操作の順序を変更することにより、一般的な自己注意メカニズムのシンプルでありながら効率的な変更である高速空間注意に依存しています。さらに、高解像度の入力を効率的に処理するために、ネットワークの中間機能ステージに追加のスペース削減を適用し、機能を融合するための高速アテンションモジュールの使用による精度の低下を最小限に抑えます。一連の実験を通じてメソッドを検証します。これは、既存のリアルタイムセマンティックセグメンテーションメソッドと比較して、複数のデータセットで優れたパフォーマンス、精度、および速度を示しています。都市の景観では、私たちのネットワークは、Titan XGPUで72FPSで74.4%mIoU、58FPSで75.5%mIoUを達成します。これは、同じ精度を維持しながら、最先端の〜よりも約50%高速です。
ここに画像の説明を挿入

解きほぐされた非ローカルニューラルネットワーク

コード:https ://github.com/yinh17/DNL-Semantic-Segmentation
要約:非ローカルブロックは、通常の畳み込みニューラルネットワークのコンテキストモデリング機能を強化するために一般的に使用されるモジュールです。この論文では、最初に非局所ブロックについて詳細な調査を行い、その注意の計算を2つの項目に分割できることを発見しました。1つは2つのピクセル間の関係を表し、もう1つは各ピクセルの顕著性を表す単項項です。また、別々にトレーニングされた2つの用語は、異なる視覚的手がかりをモデル化する傾向があることも観察されます。たとえば、白いペアワイズ用語は地域内の関係を学習し、単項用語は顕著な境界を学習します。ただし、2つの用語は非ローカルブロックで緊密に結合されているため、各用語の学習が妨げられます。これらの発見に基づいて、2つの用語の学習を容易にするために2つの用語が分離されている、解きほぐされた非ローカルブロックを提案します。都市景観でのセマンティックセグメンテーション、ADE20KとPascalコンテキスト、COCOでのオブジェクト検出、ダイナミクスでのアクション認識など、さまざまなタスクでの分離設計の有効性を示します。コードは公に使用されます。
ここに画像の説明を挿入

生物医学画像セグメンテーションのための非ローカルUネット

コード:https ://paperswithcode.com/paper/global-deep-learning-methods-for

要約:ディープラーニングは、さまざまな生物医学画像セグメンテーションタスクで大きな期待を示しています。既存のモデルは通常、U-Netに基づいており、長距離情報を段階的に集約するために、スタックされたローカル演算子を備えたエンコーダ-デコーダアーキテクチャに依存しています。ただし、ローカルオペレーターのみを使用すると、効率と効果が制限されます。この作業では、生物医学画像セグメンテーションのための柔軟なグローバル集約ブロックを備えた非ローカルu-netを提案します。これらのブロックは、サイズ保存プロセスとして、またダウンサンプリングとアップサンプリングのレイヤーとしてU-Netに挿入できます。非局所的なU字型ネットワークを評価するために、乳児の脳の3Dマルチモーダル等強度Mr画像セグメンテーションタスクについて徹底的な実験を行いました。結果は、モデルがより少ないパラメーターと計算速度で最高のパフォーマンスを発揮することを示しています。
ここに画像の説明を挿入

2021年

ディープエッジフィルタリングとクローズドシェイプ抽出を使用した履歴マップのベクトル化

コード:https ://github.com/soduco/ICDAR-2021-ベクトル化

要約:地図は何世紀にもわたってユニークな知識の源でした。これらの歴史的文書は、重要な時間枠にわたる景観の複雑な空間的変化を分析するための貴重な情報を提供します。これは、複数の交差する研究分野(社会科学、経済学など)を含む都市部に特に当てはまります。マップソースの大きくて重要な多様性は、ベクトル形状の下で関連するオブジェクトを抽出するための自動画像処理技術を必要とします。マップの複雑さ(テキスト、ノイズ、デジタル化アーティファクトなど)は、何十年もの間、一般的で効率的なラスターからベクトルへのアプローチを思い付く能力を妨げてきました。ラスターマップをベクターオブジェクト(ブロック、通り、川)に自動変換するための、学習可能で再現性があり再利用可能なソリューションを提案します。これは、効率的なエッジフィルタリングを通じて、数学的形態学と畳み込みニューラルネットワークの補完的な強みに基づいて構築されています。さらに、ConnNetを変更し、ディープエッジフィルタリングアーキテクチャを組み合わせてピクセル接続情報を活用し、後処理技術を必要としないエンドツーエンドのシステムを構築します。このホワイトペーパーでは、複数のデータセットに対するさまざまなアーキテクチャの包括的なベンチマークと、新しいベクトル化ステップに焦点を当てます。COCO投光照明メトリックを使用した新しい公開データセットでの実験結果は、非常に有望な結果を示しており、この方法の成功と失敗のケースの定性分析によって確認されています。

BiconNet:顕著なオブジェクト検出のためのエッジ保存接続ベースのアプローチ

コード:https ://github.com/Zyun-Y/BiconNets

要約:従来の深層学習ベースの方法では、顕著オブジェクト検出(SOD)をピクセルレベルの顕著性モデリングタスクとして扱います。現在のSODモデルの制限は、ピクセル間情報の利用が不十分であるということです。これは通常、近端領域の不完全なセグメンテーションと低い空間コヒーレンスをもたらします。私たちが示したように、唯一のラベルとして顕著性マスクを使用することは最適ではありません。この制限に対処するために、接続性マスクと顕著性マスクをラベルとして使用して、ピクセル間の関係とオブジェクトの顕著性モデリングを効率的に分類する、Bilateral Connectivity Network(BiconNet)と呼ばれる接続性ベースの方法を提案します。さらに、出力連結グラフを強化するための両側投票モジュールと、エッジ固有の機能を効果的に利用する新しいエッジ機能強化方法を提案します。5つのベンチマークデータセットでの包括的な実験を通じて、提案された方法を既存の最先端の顕著性ベースのSODフレームワークにプラグインして、パラメーターの増加を無視してパフォーマンスを向上できることを示します。

ここに画像の説明を挿入
ここに画像の説明を挿入
論文の寄稿:

  • ピクセル接続を明示的にモデル化し、エッジモデリングを強化し、顕著な領域の空間コヒーレンスを維持するために、BiconNetと呼ばれる接続ベースのSODフレームワークを提案します。BiconNetは、パラメータの増加を無視して、既存のSODモデルに簡単に接続できます。
  • ネットワーク出力でエッジ固有の情報を直接強調する、効率的な接続ベースのエッジ特徴抽出方法を提案します。また、エッジ機能の利用をさらに改善し、出力の空間的一貫性を維持するために、新しい損失関数であるBicon損失を導入します。
  • 7つの最先端のSODモデルのバックボーンを備えたバイコネットを構築します。これらのデュアルネットワークネットワークを対応するベースラインと比較することにより、異なる評価指標を使用した5つの広く使用されているベンチマークで、モデルが後者のモデルよりも優れていることを示します。

深い画像セグメンテーション(BMVC)のための境界認識損失の紹介

コード:https ://github.com/onvungocminh/MBD_BAL

要約:最新の監視対象画像セグメンテーション方法のほとんどは、入力が与えられた場合の初期トポロジ(輪郭の近接など)を保持しません。バイナリ予測とグラウンドトゥルース値を比較すると、通常、エッジポイントが挿入または削除されていることがわかります。これは、相互接続された複数のオブジェクトの正確なローカリゼーションが必要な場合に重要になる可能性があります。この論文では、新しい損失関数である境界認識損失(BALoss)を、最小バリア距離(MBD)ベースの切断アルゴリズムを使用して提案します。リークピクセルと呼ばれるものを特定し、特定のグラウンドトゥルースから境界情報をエンコードすることができます。この適応損失により、学習プロセス中の予測境界の品質を大幅に向上させることができます。さらに、私たちの損失関数は微分可能であり、画像処理のためにあらゆるタイプのニューラルネットワークに適用できます。この損失関数を、電子顕微鏡データセットの標準U-NetおよびDCU-Netに適用します。それらはノイズレベルが高いことが知られており、画像空間内の近距離のオブジェクトや接続されたオブジェクトをカバーすることは困難です。情報の変動(Voi)と適応ランクインデックス(ARI)の観点から、セグメンテーションのパフォーマンスは非常に有望であり、最新のVoiスコアよりも約15%高く、約5%高くなっています。

ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_42990464/article/details/123270660