[ペーパー ノート] ビデオ ポリープ セグメンテーション VPS: ビデオ ポリープ セグメンテーション 深層学習の視点

助ける:

  • エフェクト:170fps
  • ビデオ ポリープ セグメンテーション データセット: SUN-SEG-Easy データセット
  • VPS ベースライン: PNS+ (ベースラインとはベースラインを指し、この方法より低いパフォーマンスは許容できないことを意味します)
  • VPS ベンチマーク

対象: 結腸ポリープの多様性 (境界線のコントラスト、形状、向き、カメラ アングルなど)、内部アーチファクト (水の流れ、残留物など)、および画像の劣化 (色の歪み、鏡面反射など)。

SUN-SEG データセット

SUN データセットに基づいて、オブジェクト マスク、境界、
ここに画像の説明を挿入

ネットワーク アーキテクチャ

ここに画像の説明を挿入

グローバルエンコーダー

T フレーム シーケンスの最初のフレーム (H', W', 3) をアンカー ポイントとして、アンカー ポイントの特徴を抽出します。A h ∈ RH h × W h × C h A^h ∈ R^{H^ h ×W^h×C^h}時間εRHh ×Wh ×C時間

ローカルエンコーダー

スライディング ウィンドウの連続フレームを入力として使用し、エンコーダを使用して高低の 2 セットの特徴を抽出します。
ここに画像の説明を挿入
ここに画像の説明を挿入

NSブロック

受容野を動的に更新する

画像-20220525151933329

チャンネル分割

Q、K、および V 行列 (T * H * W * C) を取得した後、それらをチャネルから N 個の部分に分割して、Q i 、K i 、V i ∈ RT × H × W × CN {Q_i、K_i を取得します。 , V_i} ∈R^{T\times H\times W\times \frac{C}{N}}QKεR×××NC、それぞれ入力 N 個の自己注意モジュール

依存関係ルールのクエリ

参考:PCSA

連続するフレーム間の時空間関係をモデル化するには、セグメント化されたクエリ機能( Q i ) i = 1 N {(Q_i)}_{i=1}^N を測定する必要があります。( Q)私は= 1Nおよび主要な機能( K i ) i = 1 N {(K_i)}_{i=1}^N( K)私は= 1N間の類似性は、PCSA を参照すると、ターゲット ピクセルの制限されたフィールドの時空行列を計算するために N 相関測定ブロックを導入します。

Non-local では、Q のピクセルと K のすべてのピクセルの間の関係が計算され、クエリ位置とすべての位置の重要な特徴の間の関係が計算されますが、この論文のブロックは特徴ブロックの範囲を徐々に広げます。

非ローカル

具体的には、与えられたQ i Q_iの​​ピラミッド ネットワークに似ています。Q行列X q X^qのピクセルバツq (より正確には、高さ x、幅 y、z 番目のフレームのすべての C/8 チャネル ピクセル値である必要があります)、ウィンドウkkのサイズに応じてkの膨張率di d_iと膨張d,在 K i K_i K行列の高さを( x − kdi , x + kdi ) (x-kd_i, x+kd_i)として選択します( ×kd _×+kd _),宽当( y − kdi , y + kdi ) (y-kd_i,y+kd_i)( _kd _y+kd _)、すべてのフレームのすべてのチャネルのピクセル値を合計し、N ブロックのブロック数が増加するにつれて、di = 2 i − 1 d_i=2i-1d=2i _1が増加します。これは、 Q i Q_iを取得することに相当します。QK i K_iの範囲が広いK間の関係。受容野を広げるのと同じ

正規化ルール

Q i Q_iQNorm ( ) Norm()の使用時間次元Q i ^ = N orm ( Q i ) \hat{Q_i}=Norm(Q_i) に沿ったN o r m ( )層の正規化
Q^=ノルム( Q _ _ _)

相関測定

最終的な相関計算式、全体のフォルムはオリジナルのトランス自己注意式と同じ

画像-20220504180916061

Spatial-Temporal (時空間集約)

類似度計算と同様に、V 行列と Q および K 類似度の計算は、実際には、

ここに画像の説明を挿入

実際、全体的な計算プロセスはトランスフォーマーの自己注意メカニズムと同じですが、ピクセル間の相関の計算方法が変更されています。

ソフトアテンション

このモジュールにより、類似度行列の特徴M i AM^A_iが融合されます。Mおよび時空間集約機能M i TM^T_iMT、相関する時空間パターンを強化し、弱く相関する時空間パターンを抑制する必要があります

まず、類似行列のグループM i A M_i^AMチャネル次元に沿って連結してMAM^Aを生成しますM

Max 関数はMAM^Aを計算しますMチャネル次元でのAの最大値、およびチャネル次元に沿った一連の時空間集約フィーチャM i TM^T_iMTMTM^Tを生成するためのスプライシングMT

画像-20220525152135100
正常化された自己注意

WT WT_TWT学習可能な重みで、※はチャネル型アダマール積(対応する行列の要素の掛け算)

画像-20220525152513330

はだま製品:

m × nm\times nの場合メートル×nの 2 つの行列 A と B、同じ位置要素相乘
( a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ) ∗ ( b 11 b 12 b 13 b 21 b 22 b 23 b 31 b 32 b 33 ) = ( a 11 b 11 a 12 b 12 a 13 b 13 a 21 b 21 a 22 b 22 a 23 b 23 a 31 b 31 a 32 b 32 a 33 b 33 ) \left( \begin{行列} a_{11}\ a_{12}\ a_{13}\\ a_{21}\ a_{22}\ a_{23}\\ a_{31}\ a_{32}\ a_{33}\\ \end{matrix} \right) * \left( \begin{matrix} b_{11}\ b_{12}\ b_{13}\\ b_{21}\ b_{22}\ b_{23}\\ b_ {31}\ b_{32}\ b_{33}\\ \end{matrix} \right) = \left( \begin{matrix} a_{11}b_{11}\ a_{12}b_{12}\ a_{13}b_{13}\\ a_{21}b_{21}\ a_{22}b_{22}\ a_{23}b_{23}\\ a_{31}b_{31}\ a_{32 }b_{32}\ a_{33}b_{33}\\ \end{行列} \right)a1 1 a1 2 a1 3a2 1 a2 2 a2 3a3 1 a3 2 a3 3b1 1 b1 2 b1 3b2 1 b2 2 b2 3b3 1 b3 2 b3 3=a1 1b1 1 a1 2b1 2 a1 3b1 3a2 1b2 1 a2 2b2 2 a2 3b2 3a3 1b3 1 a3 2b3 2 a3 3b3 3

NS ブロックの出力

画像-20220504184749302

グローバルローカル学習戦略

任意の時間距離にわたる長期および短期の時空間伝播を実現する

ここに画像の説明を挿入

グローバル時空間モデリング

グローバル時空間モデリング

任意の時間距離にわたる長期的な関係をモデル化する最初の NS ブロックは、入力として 4 次元の時間的特徴を必要とします。

ここに画像の説明を挿入

アンカー機能の使用A h A^hクエリ行列Q g Q^gとしてのhQg、ローカル エンコーダーによって生成された高機能をK g K^gKgQ g Q^gQg

目的は、アンカー ポイントとローカル ハイ フィーチャ間のピクセルの類似性を確立することです。残りの接続は、Z g Z^gを取得します。Zg、ここで + は要素ごとの加算
ここに画像の説明を挿入

グローバルからローカルへの伝播

2 番目の NS ブロックでは、遠距離依存Z g Z^gZgは、2 番目の NS ブロックへの入力としてスライディング ウィンドウ内のフレームに伝播されます。

画像-20220504194048843

デコーダ

ローカル エンコーダーの低機能と 2 番目の NS ブロックの出力機能を組み合わせるZ l Z^lZl 2 段階の U-Net デコーダへの入力として空間形式に復元

ここに画像の説明を挿入

バイナリ クロス エントロピー損失による最適化

ここに画像の説明を挿入

PCSA

CSA (constrained self-attation) は、グローバルな背景を学習するのではなく、ローカルなモーション パターンに焦点を当てています。

突き出たオブジェクトはさまざまなサイズを持ち、さまざまな速度で移動できることを考慮して、一連の CSA を使用してピラミッド構造を形成します。

自意識過剰

連続するフレームの相関測定とコンテキストを Q の近傍に制限します

例えば、下の図では、最初のフレームのオブジェクトは、隣接するフレームのオブジェクトと同様の位置を持っています.これに基づいて、Q 行列の特徴要素 x(t, h, w) について、その値を取得します。 K マトリックスでは、フレーム: 1-T、高さ: h-dr、h+dr、幅: w-dr、w+dr に限定された相関を測定するために周囲の領域が使用されます。

画像-20220505135405205

ピラミッドの組み合わせ

これは、PNS-Net で使用されるリファレンスです。

固定サイズの単一の制約付き自己注意は、さまざまな速度とさまざまなサイズによって引き起こされる移動オブジェクトを認識できません。また、マルチヘッド メカニズムには、さまざまなモーション状況に適応するために、ヘッドごとに異なるウィンドウ サイズと移動範囲があります。

複数のヘッドと複数のスケールを組み合わせる

マルチヘッド: 並行して、入力フィーチャをチャネルに沿って g 個のグループに分割し、各グループに制約付き自己注意を使用します

mg-g44DU2tR-1653467435113)]

ピラミッドの組み合わせ

これは、PNS-Net で使用されるリファレンスです。

固定サイズの単一の制約付き自己注意は、さまざまな速度とさまざまなサイズによって引き起こされる移動オブジェクトを認識できません。また、マルチヘッド メカニズムには、さまざまなモーション状況に適応するために、ヘッドごとに異なるウィンドウ サイズと移動範囲があります。

複数のヘッドと複数のスケールを組み合わせる

マルチヘッド: 並行して、入力フィーチャをチャネルに沿って g 個のグループに分割し、各グループに制約付き自己注意を使用します

マルチスケール: 異なるグループ、異なるウィンドウ サイズ、異なる d と r

おすすめ

転載: blog.csdn.net/xqh_Jolene/article/details/124968813