[Computer Vision | Image Segmentation] arxiv Computer Vision Academic Express on Image Segmentation (9月8日論文集)

記事ディレクトリ

1. セグメンテーション | 意味相関 (12 記事)

1.1 分離されたビデオ セグメンテーションによるあらゆる追跡

分離されたビデオセグメンテーションであらゆるコンテンツを追跡

https://arxiv.org/abs/2309.03903

ビデオセグメンテーションのためのトレーニングデータのアノテーションは高価です。これは、特に大規模な語彙設定において、新しいビデオ セグメンテーション タスクに対するエンドツーエンド アルゴリズムの拡張を妨げます。個々のタスクごとにビデオ データのトレーニングを行わずに「何でも追跡」するために、タスク固有の画像レベルのセグメンテーションとクラス/タスクに依存しない双方向時間伝播で構成される分離ビデオ セグメンテーション アプローチ (DEVA) を開発します。この設計により、必要なのは、ターゲット タスクの画像レベル モデル (トレーニングのコストが低い) と、一度トレーニングされタスク間で一般化される一般的な時間伝播モデルだけです。これら 2 つのモジュールを効果的に組み合わせるために、セグメンテーション仮説の双方向伝播 (半) オンライン融合を使用して、異なるフレームから一貫したセグメンテーションを生成します。我々は、この分離された定式化が、大語彙のビデオ パノプティック セグメンテーション、オープンワールド ビデオ セグメンテーション、参照ビデオ セグメンテーション、教師なしビデオ オブジェクト セグメンテーションなど、データが不足しているいくつかのタスクにおいて、エンドツーエンドの手法と比べて有利であることを示します。コードは https://hkchengrex.github.io/Tracking-Anything-with-DEVA で入手できます。

1.2 屋根面セグメンテーションのためのユークリッドおよび埋め込み空間における境界を意識したポイント クラスタリング アプローチ

ユークリッド埋込空間における境界を意識した点クラスタリング屋根面分割法

https://arxiv.org/abs/2309.03722

航空 LiDAR 点群データから屋根面をセグメント化することは、3D 建築モデルを再構築するための重要な手法です。平面セグメンテーションにおける重要な問題の 1 つは、隣接する平面スライスを正確に区別できる強力な機能をどのように設計するかです。ポイント フィーチャの品質は、屋根面のセグメンテーションの精度を直接決定します。既存の方法のほとんどは、手作りのフィーチャを使用して屋根面を抽出します。ただし、これらの特徴の検出力は、特に境界領域では比較的低くなります。この問題に対処するために、我々は、ユークリッド空間およびルーフプレーンセグメンテーションのための埋め込み空間におけるマルチタスクディープネットワークによって構築される、境界を意識したポイントクラスタリング手法を提案する。意味ラベルを予測し、オフセットをポイントし、深い埋め込み特徴を抽出するための 3 つの分岐ネットワークを設計します。最初の分岐では、入力データを非屋根点、境界点、および平面点に分類します。2 番目のブランチでは、各ポイントをそれぞれのインスタンスの中心に向かって移動するために使用されるポイント オフセットを予測します。3 番目のブランチでは、同じ平面インスタンスのポイントが同様の埋め込みを持つように制約します。私たちの目標は、同じ平面インスタンスの点がユークリッド空間と埋め込み空間の両方にできるだけ近くなるようにすることです。ただし、ディープ ネットワークの強力な特徴表現能力にもかかわらず、フラット インスタンスの境界付近のポイントを正確に区別することは依然として困難です。したがって、最初に両方の空間で平面点を多くのクラスターにグループ化し、次に残りの境界点を最も近いクラスターに割り当てて、最終的な完全な屋根面を生成します。このようにして、信頼性の低い境界点の影響を効果的に軽減できます。さらに、合成データセットと実際のデータセットを構築して、メソッドをトレーニングおよび評価します。実験結果は、この方法が既存の最先端の方法よりも大幅に優れていることを示しています。

1.3 意味論的画像セグメンテーションにおける比較可能な知識の蒸留に向けて

セマンティック画像セグメンテーションにおける比較可能性知識の抽出

https://arxiv.org/abs/2309.03659

Knowledge Distillation (KD) は、セマンティック セグメンテーションにおける大きなモデル サイズと遅い推論速度に対する解決策として提案されています。私たちの調査では、過去 4 年間の 14 の出版物から提案されている 25 の蒸留損失項を特定しました。残念ながら、トレーニング構成の違いにより、公開された結果に基づく用語の比較は不可能なことがよくあります。2022 年の 2 つの出版物を比較すると、この問題がよくわかります。同じモデルとデータセットを使用した構造統計的テクスチャー蒸留 (SSTKD) では、学生の mIoU が 4.54 増加し、最終パフォーマンスが 29.19 であったことが報告されました。一方、適応遠近法蒸留 (APD) では、学生のパフォーマンスは 2.06 パーセント ポイント向上しただけで、最終パフォーマンスは 29.19 でした。 . 39.25。このような極端な違いの理由は、通常、ハイパーパラメータの最適ではない選択と、参照点として使用されるスチューデント モデルのパフォーマンスの低下です。私たちの研究では、ハイパーパラメーターが完全に最適化されると、広く受け入れられている 2 つのフレームワーク SKD と IFVD における蒸留の改善が消失することを示すことで、ハイパーパラメーターの調整が不十分であるという問題に光を当てました。この分野での今後の研究の比較可能性を高めるために、3 つのデータセットと 2 つのスチューデント モデルに対する強固なベースラインを確立し、ハイパーパラメーター調整に関する広範な情報を提供します。ADE20K データセットの単純なベースラインと競合できるのは 8 つの手法のうち 2 つだけであることがわかりました。

1.4 TEM 画像における転位のインスタンスのセグメント化

透過型電子顕微鏡画像における転位のインスタンスのセグメント化

https://arxiv.org/abs/2309.03499

その場ひずみ実験における定量透過型電子顕微鏡 (TEM) は、金属格子内の線欠陥である転位の動きを明らかにすることができます。材料科学の分野では、転位の位置や動きに関する知識は、優れた特性を持つ新材料を創製するために重要です。しかし、長年の問題は、転位の位置を特定し、その形状を抽出することであり、これは最終的にはそのような材料のデジタルツインの作成に役立ちます。この研究では、Mask R-CNN や YOLOv 8 などの最先端のインスタンス セグメンテーション手法を定量的に比較します。インスタンスのセグメンテーションの結果である転位マスクは数学的な線に変換され、転位の長さと形状の定量的な分析が可能になります。これはドメイン科学者にとって重要な情報であり、ネットワークのパフォーマンスを推定するための新しい長さを意識した品質メトリクスとして提案されます。当社のセグメンテーション パイプラインは高い精度を示し、すべてのドメイン固有の後処理に適しています。さらに、物理ベースのメトリクスにより、一般的に使用されるピクセル メトリクスよりも一貫したパフォーマンスが得られます。

1.5 ビデオオブジェクトセグメンテーションを参照するための時間的収集と配布

参照ビデオオブジェクトセグメンテーションの一時的な収集と配布

https://arxiv.org/abs/2309.03473

参照ビデオ オブジェクトのセグメント化は、自然言語表現に基づいてビデオ シーケンス全体にわたって参照オブジェクトをセグメント化することを目的としています。フレーム レベルでオブジェクトをセグメント化しながら、グローバル ビデオ レベルで自然言語表現をオブジェクトの動きとその動的な関連に調整する必要があります。この目標を達成するために、グローバル参照トークンと一連のオブジェクト クエリを同時に維持することを提案します。前者は言語表現に従ってビデオ レベルの参照対象をキャプチャする役割を果たし、後者は各フレームでオブジェクトをより適切にローカライズしてセグメント化する役割を果たします。さらに、オブジェクトの動きとオブジェクトに関する時空間的クロスモーダル推論を明示的にキャプチャするために、グローバル参照トークンとオブジェクト クエリの間の相互作用のための新しい時間コレクション割り当てメカニズムを提案します。具体的には、時間収集メカニズムは、オブジェクトのクエリから時間的な移動、言語表現に至るまで、指示されたマークのグローバルな情報を収集します。次に、時間的分散では、最初にすべてのフレームにわたる参照対象シーケンスに参照対象タグを分散し、次に各フレーム内の参照対象シーケンスとオブジェクト クエリの間で効率的なクロスフレーム推論を実行します。実験結果は、私たちの手法がすべてのベンチマークにわたって一貫して大幅に最先端の手法を上回るパフォーマンスを示していることを示しています。

1.6 MEGANet: 弱い境界ポリープセグメンテーションのためのマルチスケールエッジガイド型アテンションネットワーク

MEGANET: 弱い境界ポリープ セグメンテーションのためのマルチスケール エッジ ガイド付きアテンション ネットワーク

https://arxiv.org/abs/2309.03329

医療における効果的なポリープのセグメンテーションは、結腸直腸がんの早期診断を達成する上で重要な役割を果たします。ただし、ポリープのセグメンテーションには、複雑な背景分布、ポリープのサイズと形状の変化、境界の不鮮明さなど、多くの課題が生じます。前景 (つまり、ポリープ自体) と背景 (周囲の組織) を定義するのは困難です。これらの課題を軽減するために、結腸内視鏡画像におけるポリープのセグメンテーションに特化したマルチスケールのエッジガイド付きアテンション ネットワーク (MEGANet) を提案します。このネットワークは、古典的なエッジ検出技術とアテンション メカニズムの融合からインスピレーションを得ています。これらの技術を組み合わせることで、MEGANet は高周波情報、特にニューラル ネットワークが深化するにつれて侵食される傾向にあるエッジや境界を効果的に保存します。MEGANet は、3 つの主要なモジュールを含むエンドツーエンドのフレームワークです。入力画像から特徴をキャプチャして抽出するエンコーダー、顕著な特徴に焦点を当てるデコーダー、エッジ ガイド アテンション モジュール (EGA) です。これはプル プラス オペレータを使用してポリープの境界を強調します。5 つのベンチマーク データセットに対する定性的および定量的な広範な実験により、当社の EGANet が 6 つの評価指標の下で他の既存の SOTA 手法よりも優れていることが示されました。コードは \url{https://github.com/DinhHieuHoang/MEGanet} で入手できます。

1.7 MS-UNet-v2: 小さなトレーニング データを使用した医療画像セグメンテーションのための適応型ノイズ除去手法とトレーニング戦略

小さなトレーニングデータを使用した医用画像セグメンテーションのための適応型ノイズ除去法とトレーニング戦略

https://arxiv.org/abs/2309.03686

U 字型構造に基づくモデルにより、医療画像セグメンテーションのパフォーマンスが向上します。ただし、U-Net の単一層デコーダ構造は「薄すぎる」ため、十分な情報を利用できず、その結果、エンコーダ部分とデコーダ部分の間に大きな意味上の違いが生じます。トレーニング データセットの数が十分に大きくない場合、状況はさらに悪化します。これは、他のタスクに比べてアノテーション データの取得が難しい医療画像処理タスクでは一般的です。この観察に基づいて、この研究では医療画像セグメンテーション タスク用に MS-UNet という名前の新しい U-N​​et モデルを提案します。Swin-UNet および TransUnet で使用される単層 U-Net デコーダ構造に基づいて、Transformer に基づいたマルチスケールのネストされたデコーダを特別に設計しました。提案されたマルチスケールのネストされたデコーダ構造により、デコーダとエンコーダの間の特徴マッピングが意味的に緊密になるため、ネットワークがより詳細な特徴を学習できるようになります。さらに、新しいエッジ損失とプラグアンドプレイの微調整されたノイズ除去モジュールを提案します。これは、MS-UNet のセグメンテーション パフォーマンスを効果的に向上させるだけでなく、他のモデルにも独立して適用できます。実験結果は、MS-UNet がネットワーク パフォーマンスを効果的に向上させ、より効率的な特徴学習機能を備え、より高度なパフォーマンスを示すことができ、特にトレーニング データの量が少ない極端なケースでは、提案されたエッジ損失およびノイズ除去モジュールを大幅に向上できることを示しています。 MS-UNet のセグメンテーション パフォーマンス。

1.8 血管セグメンテーション用のフィーチャーエンハンサーセグメンテーションネットワーク (FES-Net)

血管セグメンテーションのための機能拡張セグメンテーション ネットワーク (FES-Net)

https://arxiv.org/abs/2309.03535

糖尿病性網膜症や加齢黄斑変性などの疾患は視力に重大なリスクをもたらし、追跡および診断の進行のために網膜血管を正確にセグメンテーションすることの重要性が強調されています。しかし、エンコーダとデコーダの構造に大きく依存する既存の血管セグメンテーション手法は、網膜血管の構成に関するコンテキスト情報を取得するのに苦労しており、エンコーダとデコーダの特徴間の意味論的な違いを調整する際に課題が生じています。この問題に対処するために、追加の画像強調ステップを必要とせずに正確なピクセルごとのセグメンテーションを実現する新しい機能強化セグメンテーション ネットワーク (FES-Net) を提案します。FES-Net は入力画像を直接処理し、ダウンサンプリング中に 4 つのキュー コンボリューション ブロック (PCB) を利用し、浅いアップサンプリング手法で補完して各カテゴリのバイナリ マスクを生成します。私たちは、公的に利用可能な 4 つの最先端のデータセット (Drive、Gaze、Pursuit、HRF) で FES-Net のパフォーマンスを評価します。評価結果は、既存の文献に記載されている他の競合手法と比較して、FES-Net が優れたパフォーマンスを備えていることを明確に示しています。

1.9 TSI-Net: デジタルサブトラクション血管造影における頭蓋内動脈セグメンテーションのためのタイミングシーケンス画像セグメンテーションネットワーク

TSI-Net: デジタルサブトラクション血管造影における頭蓋内動脈セグメンテーションのための時間画像セグメンテーションネットワーク

https://arxiv.org/abs/2309.03477

脳血管疾患は、今日世界が直面している主要な病気の 1 つです。デジタルサブトラクション血管造影 (DSA) シーケンスにおける頭蓋内動脈 (IA) の自動セグメンテーションは、血管関連疾患の診断と神経介入治療の指導における重要なステップです。DSA 技術のイメージング原理によれば、単一の画像には造影剤内の IA の一部しか表示できません。したがって、2D DSA セグメンテーション法では、完全な IA 情報と脳血管疾患の治療を捕捉することはできません。我々は、双方向 ConvGRU モジュール (BCM) エンコーダを組み合わせた、TSI-Net と呼ばれる U 字型の時限シーケンス画像セグメンテーション ネットワークを提案します。このネットワークは、エンコーダに双方向 ConvGRU モジュール (BCM) を統合しており、可変長 DSA シーケンスを入力し、過去および将来の情報を保持し、それらを 2D 画像にセグメント化することができます。さらに、監視するファインシップの最後に Sensitive Detail Branch (SDB) を導入します。実験は DSA シーケンス データセット DIAS 上で行われ、この方法のパフォーマンスは近年の最先端のネットワークよりも大幅に優れています。特に、Sen 評価指標 0.797 を達成しており、これは他の方法と比較して 3% 向上しています。

1.10 反事実生成学習による早産児の点状白質病変のセグメンテーション

反事実生成学習によって裏付けられた未熟児の点状白質病変のセグメンテーション

https://arxiv.org/abs/2309.03440

点状白質病変 (PWML) の正確なセグメンテーションは、関連する発達障害のタイムリーな診断と治療の基本です。病変は小さくコントラストが低いことが多く、病変の数は被験者間で大幅に異なる可能性があることを考慮すると、乳児の脳 MR 画像からの自動 PWML セグメンテーションは困難です。既存の学習ベースの手法は、この困難なタスクに汎用ネットワーク アーキテクチャを直接適用するため、PWML の詳細な位置情報を取得できない可能性があり、深刻な過小セグメント化につながる可能性があります。この論文では、反事実推論のアイデアを脳組織セグメンテーションの補助タスクと組み合わせて活用し、PWML の正確な位置特定とセグメンテーションのために、きめの細かい位置および形態学的表現を学習することを提案します。それに応じて、シンプルで実装が簡単な深層学習フレームワーク (DeepPWML) が設計されています。病変反事実マップと組織確率マップを組み合わせて軽量 PWML セグメンテーション ネットワークをトレーニングし、乳児 T1 w MR 画像の実際の臨床データセットで最先端のパフォーマンスを実証します。コードは\href{https://github.com/ladderlab-xjtu/DeepPWML}{https://github.com/ladderlab-xjtu/DeepPWML}で入手できます。

1.11 胸腹部 CT スキャンにおける腎臓異常のセグメンテーション

胸部および腹部の CT スキャンにおける腎異常のセグメント化

https://arxiv.org/abs/2309.03383

この研究では、臨床医が嚢胞、病変、腫瘤、転移、原発腫瘍などの腎異常を特定し定量化できるよう、腎実質と腎異常をセグメント化するためのディープラーニング手法を導入します。当社のエンドツーエンド セグメンテーション手法は、215 件の造影胸腹部 CT スキャンでトレーニングされ、その半数には 1 つ以上の異常が含まれていました。まず、オリジナルの 3D U-Net ネットワークの独自バージョンを実装し、エンドツーエンドの多重解像度アプローチ、一連のタスク固有のデータ拡張、およびトップ kk の使用という 4 つの追加コンポーネントを追加しましたkの損失関数と空間損失を修正しましたさらに、私たちはオーダーメイドの後処理戦略を考案しました。アブレーション研究では、4 つの修正のそれぞれが腎異常のセグメンテーションのパフォーマンスを向上させ、4 分の 3 で腎実質のセグメンテーションが向上したことが示されました。続いて、データセットで nnUNet フレームワークをトレーニングしました。最適化された 3D U-Net と nnUNet を特殊な後処理と組み合わせることで、わずかに優れた結果が得られます。私たちの最もパフォーマンスの良いモデルは、2 つのテストセット (それぞれ、異常なしのスキャン 20 回と異常ありのスキャン 30 回) で腎実質のセグメント化に関して Dice スコア 0.965 および 0.947 を達成し、独立した人間の観察者のスコア (それぞれ 0.944 および 0.925) を上回りました。腎異常を含む 30 のテストスキャンを分割したところ、最も優れた方法は Dice スコア 0.585 を達成しましたが、独立した 2 人目の人間の観察者は 0.664 のスコアを達成しました。これは、コンピューター化されたアプローチがさらに改善される可能性を示しています。すべてのトレーニング データは、CC-BY 4.0 ライセンスに基づいて https://doi.org/10.5281/zenodo.8014289 で研究コミュニティに利用可能です。

1.12 EGIC: セマンティック セグメンテーションによる強化された低ビット レートの生成画像圧縮

EGIC: セマンティック セグメンテーションに基づく強化された低ビットレートの生成画像圧縮

https://arxiv.org/abs/2309.03244

単一モデルから歪みを考慮した曲線を効率的に走査できる新しい生成画像圧縮方式である EGIC を紹介します。具体的には、MSE 最適化デコーダー出力と GAN 最適化デコーダー出力間の残差を予測する、暗黙的にエンコードされた画像補間の変形を提案します。受信側では、ユーザーは GAN ベースの再構成に対する残差の影響を制御できます。改良された GAN ベースのビルディング ブロックと組み合わせることで、EGIC は HiFiC、MRIC、DIRAC などのさまざまなパーセプトロン指向および歪み指向のベースラインを上回り、歪み面では VTM-20.0 とほぼ同等の性能を発揮します。EGIC は実装が簡単で、非常に軽量 (モデル パラメーターの 0.18 倍など) で、優れた補間特性を提供するため、低ビット範囲をターゲットとする実用的なアプリケーションの有望な候補となります。

おすすめ

転載: blog.csdn.net/wzk4869/article/details/132773435