[Computer Vision | Image Segmentation] arxiv Computer Vision Academic Express on Image Segmentation (12月4日論文集)

1. セグメンテーション | 意味相関 (10 件)

1.1 CellMixer: 異種細胞集団のアノテーション不要のセマンティックセルセグメンテーション

CellMixer: 異種細胞集団のアノテーション不要のセマンティック セル セグメンテーション

https://arxiv.org/abs/2312.00671

近年、セルセグメンテーションモデルをトレーニングするための面倒なピクセルレベルの注釈の要件を省略するために、いくつかの教師なしセルセグメンテーション方法が提案されています。これらのメソッドのすべてではないにしても、ほとんどは、タイプを無視して個別のセル インスタンスを検出することに重点を置くことによって、インスタンス セグメンテーション タスクにアプローチします。これらのモデルは細胞計数などの特定のタスクに適していることが証明されていますが、他のアプリケーションでは各細胞タイプの識別が必要です。この論文では、異種細胞集団のセマンティック セグメンテーションのための革新的なアノテーション不要の方法である CellMixer を提案します。私たちのブーストベースのアプローチでは、均一な細胞集団の画像レベルのラベルからセグメンテーション モデルをトレーニングできます。私たちの結果は、CellMixer が複数の細胞タイプおよびイメージングモダリティにわたって競争力のあるセグメンテーションパフォーマンスを達成できることを示しており、この方法の拡張性と医療イメージング、細胞生物学、および診断におけるより広範なアプリケーションの可能性を示しています。

1.2 ターゲットプロンプトと視覚的一貫性による一般化可能な参照画像セグメンテーションに向けて

ターゲットの手がかりと視覚的な一貫性に基づいた一般化された参照画像のセグメンテーション

https://arxiv.org/abs/2312.00452

参照画像セグメンテーション (RIS) は、テキストによる説明を使わずに、画像用語でオブジェクトをセグメント化することを目的としています。圧倒的な進歩にもかかわらず、現在の手法はさまざまなテキスト表現や目に見えない視覚的エンティティのコンテキストでうまく機能することが依然として難しく、さらなる応用が制限されています。本稿では、上記 2 つのジレンマを解決することで汎化能力を大幅に向上させる新しい RIS 手法を提案します。特に、制約のないテキストを扱う場合、統一された文脈で表現を補完し、存在する言語スタイルのバリエーションを捉えるという目標を容易にする、明示的かつ重要な手がかりを強化することを提案します。さらに、強力な事前トレーニング済みモデルからの視覚的なガイダンスを備えたマルチモーダル融合集約モジュールを導入し、空間関係とピクセルのコヒーレンスを活用して、不完全なターゲット マスクを処理し、目に見えないビジョンで頻繁に現れる固体上の偽陽性の不規則な塊を処理します。広範な実験がゼロショットのクロスデータセット設定で実施され、提案された方法は、最先端技術と比較して一貫した利益を達成します。たとえば、RefCOCO、RefCOCO+、および ReferIt では mIoU が 4.15%、5.45% 増加します。それぞれ4.64%とその有効性が証明されています。さらに、GraspNet-RIS の結果は、私たちの方法がより大きなドメインのシフトを伴う新しいシナリオにもよく一般化できることを示しています。

1.3 デュアルプロンプト学習による効率的なマルチモーダルセマンティックセグメンテーション

デュアルキュー学習に基づく効率的なマルチチャネルセマンティックセグメンテーション

https://arxiv.org/abs/2312.00360

マルチモーダル (RGB 深度/RGB サーマルなど) 融合は、複雑なシーン (屋内/低照度条件など) でのセマンティック セグメンテーションを改善する大きな可能性を示しています。既存のアプローチでは、マルチモーダル セマンティック セグメンテーションを実現するために、複雑な特徴融合戦略を使用してデュアル ブランチ エンコーダ/デコーダ フレームワークを完全に微調整することがよくありますが、これは、特徴抽出と融合における大規模なパラメータ更新によりトレーニングコストが高くなります。この問題に対処するために、トレーニング効率の高いマルチモーダル (RGB-D/T など) セマンティック セグメンテーションのための、驚くほどシンプルでありながら効果的なデュアル プロンプト学習ネットワーク (DPLNet と呼ばれる) を提案します。 DPLNet の核心は、フリーズされた事前トレーニング済み RGB モデルをマルチモーダル セマンティック セグメンテーションに直接適応させ、パラメータの更新を削減することです。この目的のために、マルチモーダル プロンプト ジェネレーター (MPG) とマルチモーダル機能アダプター (MFA) で構成される 2 つのプロンプト学習モジュールを紹介します。 MPG は、さまざまなモダリティの機能をコンパクトな方法で融合するように機能し、シャドウ ステージからディープ ステージまで挿入されて、凍結されたバックボーンに注入されるマルチレベルのマルチモーダル プロンプトを生成します。一方、MPG は、プロンプトされたマルチモーダル機能を凍結されたバックボーンに適応させて、より優れたマルチモーダルを実現します。セマンティックセグメンテーション。 MPG と MFA はどちらも軽量であるため、マルチモーダルな特徴の融合と学習には、トレーニング可能なパラメーターがわずか (3.88M、事前トレーニングされたバックボーン パラメーターの 4.4%) だけが導入されます。 DPLNet は、シンプルなデコーダ (3.27M パラメータ) を使用して、パラメータ効率を満たしながら、新しい最先端のパフォーマンスを達成するか、4 つの RGB-D/T セマンティック セグメンテーション データセットに対する他の複雑なアプローチと同等のパフォーマンスを実現します。さらに、DPLNet が汎用的であり、顕著なオブジェクトの検出やビデオ セマンティック セグメンテーションなどの他のマルチモーダル タスクにも適用できることを示します。特別な設計を行わなくても、DPLNet は多くの複雑なモデルよりも優れたパフォーマンスを発揮します。私たちのコードは github.com/ShaohuaDong2021/DPLNet で入手できます。

1.4 何でもセグメント化 落書き教師付きポリープ セグメンテーションのためのモデル誘導型協調学習ネットワーク

Scribble 教師付きポリープ セグメンテーションのための区分的任意モデル誘導型協調学習ネットワーク

https://arxiv.org/abs/2312.00312

ポリープのセグメンテーションは、ポリープを早期に正確に特定するための鍵であり、結腸直腸がんの予防において重要な臨床的意義があります。完全教師あり深層学習技術を使用して、さまざまなポリープ セグメンテーション手法が開発されています。しかし、医師が診断プロセス中にポリープ画像にピクセルごとに注釈を付けるのは時間と費用がかかります。さらに、Segment Anything Model (SAM) などの視覚化ベースのモデルは優れたパフォーマンスを示しています。ただし、医療知識が本質的に不足しているため、SAM を医療セグメンテーションに直接適用しても満足のいく結果が得られない可能性があります。この論文では、落書き教師付きポリープ セグメンテーションのための新しい SAM ガイド付き協調学習ネットワーク (SAM-CLNet) を提案します。これにより、セグメンテーション ネットワークと SAM 間の協調学習プロセスが可能になり、モデルのパフォーマンスが向上します。具体的には、まず、弱く監視されたポリープセグメンテーションのためのクロスレベル拡張および集約ネットワーク (CEA-Net) を提案します。 CEA-Net では、隣接するフィーチャを統合して、異なる解像度でのフィーチャの表現能力を向上させるクロスレベル拡張モジュール (CEM) を提案します。さらに、機能集約モジュール (FAM) を使用して、複数のレベルにわたってより豊富な機能をキャプチャします。さらに、CEA-Net によって生成されたセグメンテーション マップと落書きの注釈を組み合わせて、より正確な手がかりを作成するボックス拡張戦略を提案します。これらのキューは SAM に供給され、CEA ネットワークをトレーニングするための追加の監視を効果的に提供するセグメンテーション SAM ガイド付きマスクを生成します。さらに、信頼性の低い SAM ガイド付きマスクを除外するための画像レベルのフィルタリング メカニズムを提案します。広範な実験結果は、当社の SAM-CLNet が最先端の弱く監視されたセグメンテーション手法よりも優れていることを示しています。

1.5 顔パーツセグメンテーションの幾何学的ガイダンスによる 3D 顔再構成

顔セグメンテーションの幾何学的ガイダンスに基づいた 3 次元顔再構成

https://arxiv.org/abs/2312.00311

三次元変形可能モデル (3DMM) は、さまざまな用途で有望な 3D 顔の再構成を提供します。しかし、既存の方法では、まばらなランドマークや不正確なランドマークなどの監視信号が不足しているため、極端な表情の顔を再構成するのは困難です。セグメンテーション情報には、顔の再構成に効果的な幾何学的な背景が含まれています。再構築されたレンダリングされた輪郭をセグメンテーションと比較するために微分可能なレンダラに直感的に依存する試みもありますが、これは局所的な最適化や勾配の不安定性などの問題が発生しやすいものです。この論文では、顔パーツのセグメンテーション ジオメトリを最大限に活用して、部分再投影距離損失 (PRDL) を導入します。具体的には、PRDL は顔パーツのセグメンテーションを 2D 点に変換し、再構成を画像平面に再投影します。続いて、グリッド アンカー ポイントを導入し、これらのアンカー ポイントの点セットからさまざまな統計的距離を計算することで、PRDL は幾何学的記述子を構築し、顔再構成のための点セットの分布を最適化します。レンダラーベースの方法と比較して、PRDL は明確な勾配を示し、広範な定量的および定性的実験において最先端の再構成パフォーマンスを示します。プロジェクトは一般に公開されます。

1.6 デュアルコントラストドメイン適応によるマルチモーダルビデオトピックセグメンテーション

デュアル コントラスト ドメイン適応に基づいたマルチモーダルなビデオ主題のセグメンテーション

https://arxiv.org/abs/2312.00220

ビデオトピックのセグメンテーションは、ビデオの根底にある大まかな意味構造を明らかにし、他のビデオ理解タスクにとって重要です。最近の複合一貫輸送の急増を考えると、単一の交通手段だけに依存するだけでは十分ではありません。一方、ビデオシーン/ショットのセグメンテーションなどの同様のタスク用の既存のソリューションは、明確な視覚的オフセットを持つ短いビデオには対応しますが、ライブブロードキャストなどの微妙な変化のある長いビデオでは不安定です。この論文では、ビデオ トランスクリプトとフレームを利用したマルチモーダル ビデオ トピック セグメンテーションを紹介し、クロスモーダル アテンション メカニズムをサポートします。さらに、より長く、より意味的に複雑なビデオに対するモデルの適応性を向上させるために、教師なしドメイン適応パラダイムに準拠したデュアルコントラスト学習フレームワークを提案します。短いビデオコーパスと長いビデオコーパスの実験では、私たちが提案したソリューションが、ドメイン内設定とクロスドメイン設定の両方で、精度と移植性の点でベースライン手法を大幅に上回っていることが示されています。

1.7 DNS SLAM: 高密度ニューラル セマンティック情報に基づいた SLAM

DNS SLAM: 高密度ニューラル セマンティック情報 SLAM

https://arxiv.org/abs/2312.00204

近年、座標ベースのニューラル暗黙的表現は、同時位置特定とマッピング (SLAM) タスクにおいて有望な結果を示しています。これらの方法は、小さな合成シーンでは優れたパフォーマンスを実現しますが、特に複雑な現実世界のシーンでは、再構成が滑らかすぎるという問題が発生することがよくあります。この研究では、ハイブリッド表現を備えた新しいニューラル RGB-D セマンティック SLAM メソッドである DNS SLAM を紹介します。 2D セマンティック事前分布のみに依存して、安定したカメラ追跡を提供しながらシーンのような表現をトレーニングする最初のセマンティック ニューラル SLAM 手法を提案します。私たちの方法は、マルチビューの幾何学的制約を画像ベースの特徴抽出と統合して、外観の詳細を改善し、色、密度、セマンティッククラス情報を出力し、多くの下流アプリケーションを可能にします。リアルタイム追跡をさらに有効にするために、潜在空間で自己教師付きの方法でトレーニングされる軽量の粗いシーン表現を導入します。私たちの実験結果では、既製のハードウェアで賞賛に値する動作速度を維持しながら、合成データと実世界のデータ追跡の両方で最先端のパフォーマンスを達成しました。さらに、私たちの方法は、外観と幾何学的詳細をより適切にキャプチャするテクスチャのクラス分解された再構成を出力します。

1.8 膝の半自動セグメンテーションおよび関節軟骨の生体力学的モデリングのための Swin UNETR と統計的形状モデリングの統合

Swin UNETr および統計的形状モデリングと組み合わせた膝関節の半自動セグメンテーションおよび関節軟骨の生体力学的モデリング

https://arxiv.org/abs/2312.00169

有限要素 (FE) モデリングなどのシミュレーション研究により、患者による実験を必要とせずに膝関節の機構についての洞察が得られます。普遍的な有限要素モデルは、集団の形状、荷重、および材料特性の変化を無視することにより、組織の生体力学的挙動を表します。一方、主題固有のモデルにはこれらの詳細が含まれるため、予測精度が向上します。ただし、このようなモデルの作成には手間と時間がかかります。この研究は、半自動セグメンテーション アルゴリズムを組み込むことにより、被験者固有の膝 FE モデリングを強化することを目的としています。セグメンテーションは、大腿骨と脛骨の最初のセグメンテーションには 3D Swin UNETR を使用し、その後、統計的形状モデル (SSM) を調整して表面の粗さと連続性を改善しました。 Osteoarthritis Initiative (OAI) データベースからの 507 枚の磁気共鳴画像 (MRI) を使用して、セグメンテーション モデルを構築および検証しました。この半自動セグメンテーションを使用して、半自動 FE モデルが開発されました。一方、手動セグメンテーション (つまり、ゴールド スタンダード) による場合。どちらの FE モデルにも歩行負荷がかかります。手動および半自動の有限要素モデルの予測された機械的応答が比較されます。その結果、当社の半自動セグメンテーションは、大腿骨と脛骨に対して 98% 以上の Dice 類似性係数 (DSC) を達成しました。機械的結果 (最大主応力、最大主ひずみ、流体圧力、原線維ひずみ、接触面積) では、手動 FE モデルと半自動 FE モデルの間に大きな違いは見られず、正確な膝関節 FE モデルの作成における提案された半自動セグメンテーションの有効性が示されています。セックス。 (https://data.mendeley.com/datasets/k5hdc9cz7w/1) にあります。

1.9 Un-EvMoSeg: 教師なしイベントベースの独立したモーション セグメンテーション

Un-EvMoSeg: 教師なしイベントベースの独立したモーション セグメンテーション

https://arxiv.org/abs/2312.00114

イベント カメラは、高い時間分解能、高いダイナミック レンジ、低消費電力で知られる新しいタイプの生物視覚センサーです。これらの特性により、素早い反応が必要な素早い動きの処理に最適です。イベント カメラは最近、教師なしオプティカル フロー推定において競争力のあるパフォーマンスを示していますが、独立移動物体 (IMO) の検出におけるパフォーマンスは遅れていますが、イベント ベースの手法は、その低遅延と HDR 特性に基づいてこのタスクに適しています。以前のイベントベースの IMO セグメンテーション手法は、ラベル付きデータに大きく依存していました。しかし、生物学的視覚システムは、日常の作業中に、移動する物体に明示的なラベルを付けることなく、移動する物体を回避する能力を開発しました。この研究では、幾何学的制約を使用して IMO 擬似ラベルを生成する最初のイベント フレームワークを提案します。教師なしの性質により、私たちの方法は任意の数の事前定義されていないオブジェクトを処理でき、高価な IMO ラベルがすぐに利用できないデータセットにも簡単に拡張できます。 EVIMO データセットで私たちの手法を評価し、量的および質的に教師あり手法と競合することを示します。

1.10 悪性胸膜中皮腫のセグメンテーションのための畳み込みニューラル ネットワーク: 確率マップしきい値の分析 (CALGB 30901、アライアンス)

悪性胸膜中皮腫のセグメンテーションのための畳み込みニューラル ネットワーク: 確率的グラフ閾値分析 (CALGB 30901、コンソーシアム)

https://arxiv.org/abs/2312.00223

悪性胸膜中皮腫 (MPM) は、中皮腫の最も一般的な形態です。治療に対する反応を評価するために、腫瘍の測定値が取得され、患者の縦断コンピューター断層撮影 (CT) スキャンに基づいて評価されました。ただし、腫瘍体積は腫瘍量と腫瘍反応のより正確な指標です。深層学習を使用した自動セグメンテーション手法を使用してボリュームを取得できますが、それ以外の場合は手動で実行するのは面倒な作業となります。次に、深層学習ベースの腫瘍の体積と輪郭を標準参照と比較して、自動セグメンテーションの堅牢性を評価できます。この研究の目的は、畳み込みニューラル ネットワーク (CNN) を使用して生成された MPM 腫瘍描写に対する確率マップしきい値処理の影響を評価することでした。 VGG 16/U-Net CNN を使用して、21 人の MPM 患者の 88 枚の CT スキャン画像をセグメント化しました。放射線科医は、確率しきい値 0.5 で生成された輪郭を変更しました。 Dice 類似性係数 (DSC) を使用した腫瘍体積のパーセンテージの差と重複が、放射線科医によって提供された標準参照と CNN 出力の間で、0.001 ~ 0.9 の範囲の閾値で比較されました。 CNN アノテーションは一貫して、放射線科医の輪郭よりも小さな腫瘍体積を生成しました。確率のしきい値を 0.5 から 0.1 に下げると、絶対ボリューム差異のパーセンテージが平均して 43.96% から 24.18% に減少します。 DSC 範囲の中央値と平均値は 0.58 ~ 0.60 で、ピークしきい値は 0.5 でしたが、体積パーセントの差に関する明確なしきい値は見つかりませんでした。 CNN 確率マップでは、腫瘍体積と DSC の両方にとって最適な出力閾値はありません。この研究は、CNN のパフォーマンスを評価する際に腫瘍体積と空間的重複を評価する必要性を強調しています。自動セグメンテーションでは参照標準と同等の腫瘍体積を生成できますが、CNN によって特定の閾値で描写される空間領域も同様に重要です。

おすすめ

転載: blog.csdn.net/wzk4869/article/details/134799317