- 用紙アドレス:VPS
- コードアドレス: GitHub - GewelsJI/VPS: Video Polyp Segmentation (VPS)
- データセットの説明:メイン GewelsJI/VPS GitHub の VPS/DATA_PREPARATION.md
助ける:
- エフェクト:170fps
- ビデオ ポリープ セグメンテーション データセット: SUN-SEG-Easy データセット
- VPS ベースライン: PNS+ (ベースラインとはベースラインを指し、この方法より低いパフォーマンスは許容できないことを意味します)
- VPS ベンチマーク
対象: 結腸ポリープの多様性 (境界線のコントラスト、形状、向き、カメラ アングルなど)、内部アーチファクト (水の流れ、残留物など)、および画像の劣化 (色の歪み、鏡面反射など)。
SUN-SEG データセット
SUN データセットに基づいて、オブジェクト マスク、境界、
ネットワーク アーキテクチャ
グローバルエンコーダー
T フレーム シーケンスの最初のフレーム (H', W', 3) をアンカー ポイントとして、アンカー ポイントの特徴を抽出します。A h ∈ RH h × W h × C h A^h ∈ R^{H^ h ×W^h×C^h}あ時間εRHh ×Wh ×C時間
ローカルエンコーダー
スライディング ウィンドウの連続フレームを入力として使用し、エンコーダを使用して高低の 2 セットの特徴を抽出します。
NSブロック
受容野を動的に更新する
チャンネル分割
Q、K、および V 行列 (T * H * W * C) を取得した後、それらをチャネルから N 個の部分に分割して、Q i 、K i 、V i ∈ RT × H × W × CN {Q_i、K_i を取得します。 , V_i} ∈R^{T\times H\times W\times \frac{C}{N}}Q私、K私、Ⅴ私εR縦×横×横×NC、それぞれ入力 N 個の自己注意モジュール
依存関係ルールのクエリ
参考:PCSA
連続するフレーム間の時空間関係をモデル化するには、セグメント化されたクエリ機能( Q i ) i = 1 N {(Q_i)}_{i=1}^N を測定する必要があります。( Q私)私は= 1Nおよび主要な機能( K i ) i = 1 N {(K_i)}_{i=1}^N( K私)私は= 1N間の類似性は、PCSA を参照すると、ターゲット ピクセルの制限されたフィールドの時空行列を計算するために N 相関測定ブロックを導入します。
Non-local では、Q のピクセルと K のすべてのピクセルの間の関係が計算され、クエリ位置とすべての位置の重要な特徴の間の関係が計算されますが、この論文のブロックは特徴ブロックの範囲を徐々に広げます。
具体的には、与えられたQ i Q_iのピラミッド ネットワークに似ています。Q私行列X q X^qのピクセルバツq (より正確には、高さ x、幅 y、z 番目のフレームのすべての C/8 チャネル ピクセル値である必要があります)、ウィンドウkkのサイズに応じてkの膨張率di d_iと膨張d私,在 K i K_i K私行列の高さを( x − kdi , x + kdi ) (x-kd_i, x+kd_i)として選択します( ×−kd _私,×+kd _私),宽当( y − kdi , y + kdi ) (y-kd_i,y+kd_i)( _−kd _私,y+kd _私)、すべてのフレームのすべてのチャネルのピクセル値を合計し、N ブロックのブロック数が増加するにつれて、di = 2 i − 1 d_i=2i-1d私=2i _−1が増加します。これは、 Q i Q_iを取得することに相当します。Q私K i K_iの範囲が広いK私間の関係。受容野を広げるのと同じ
正規化ルール
対Q i Q_iQ私Norm ( ) Norm()の使用時間次元Q i ^ = N orm ( Q i ) \hat{Q_i}=Norm(Q_i) に沿ったN o r m ( )層の正規化
Q私^=ノルム( Q _ _ _私)
相関測定
最終的な相関計算式、全体のフォルムはオリジナルのトランス自己注意式と同じ
Spatial-Temporal (時空間集約)
類似度計算と同様に、V 行列と Q および K 類似度の計算は、実際には、
実際、全体的な計算プロセスはトランスフォーマーの自己注意メカニズムと同じですが、ピクセル間の相関の計算方法が変更されています。
ソフトアテンション
このモジュールにより、類似度行列の特徴M i AM^A_iが融合されます。M私あおよび時空間集約機能M i TM^T_iM私T、相関する時空間パターンを強化し、弱く相関する時空間パターンを抑制する必要があります
まず、類似行列のグループM i A M_i^AM私あチャネル次元に沿って連結してMAM^Aを生成しますMあ
Max 関数はMAM^Aを計算しますMチャネル次元でのAの最大値、およびチャネル次元に沿った一連の時空間集約フィーチャM i TM^T_iM私TMTM^Tを生成するためのスプライシングMT
正常化された自己注意
WT WT_TWT学習可能な重みで、※はチャネル型アダマール積(対応する行列の要素の掛け算)
はだま製品:
m × nm\times nの場合メートル×nの 2 つの行列 A と B、同じ位置要素相乘
( a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ) ∗ ( b 11 b 12 b 13 b 21 b 22 b 23 b 31 b 32 b 33 ) = ( a 11 b 11 a 12 b 12 a 13 b 13 a 21 b 21 a 22 b 22 a 23 b 23 a 31 b 31 a 32 b 32 a 33 b 33 ) \left( \begin{行列} a_{11}\ a_{12}\ a_{13}\\ a_{21}\ a_{22}\ a_{23}\\ a_{31}\ a_{32}\ a_{33}\\ \end{matrix} \right) * \left( \begin{matrix} b_{11}\ b_{12}\ b_{13}\\ b_{21}\ b_{22}\ b_{23}\\ b_ {31}\ b_{32}\ b_{33}\\ \end{matrix} \right) = \left( \begin{matrix} a_{11}b_{11}\ a_{12}b_{12}\ a_{13}b_{13}\\ a_{21}b_{21}\ a_{22}b_{22}\ a_{23}b_{23}\\ a_{31}b_{31}\ a_{32 }b_{32}\ a_{33}b_{33}\\ \end{行列} \right)⎝⎛a1 1 a1 2 a1 3a2 1 a2 2 a2 3a3 1 a3 2 a3 3な⎠⎞∗⎝⎛b1 1 b1 2 b1 3b2 1 b2 2 b2 3b3 1 b3 2 b3 3な⎠⎞=⎝⎛a1 1b1 1 a1 2b1 2 a1 3b1 3a2 1b2 1 a2 2b2 2 a2 3b2 3a3 1b3 1 a3 2b3 2 a3 3b3 3な⎠⎞
NS ブロックの出力
グローバルローカル学習戦略
任意の時間距離にわたる長期および短期の時空間伝播を実現する
グローバル時空間モデリング
グローバル時空間モデリング
任意の時間距離にわたる長期的な関係をモデル化する最初の NS ブロックは、入力として 4 次元の時間的特徴を必要とします。
アンカー機能の使用A h A^hあクエリ行列Q g Q^gとしてのhQg、ローカル エンコーダーによって生成された高機能をK g K^gKgとQ g Q^gQg
目的は、アンカー ポイントとローカル ハイ フィーチャ間のピクセルの類似性を確立することです。残りの接続は、Z g Z^gを取得します。Zg、ここで + は要素ごとの加算
グローバルからローカルへの伝播
2 番目の NS ブロックでは、遠距離依存Z g Z^gZgは、2 番目の NS ブロックへの入力としてスライディング ウィンドウ内のフレームに伝播されます。
デコーダ
ローカル エンコーダーの低機能と 2 番目の NS ブロックの出力機能を組み合わせるZ l Z^lZl 2 段階の U-Net デコーダへの入力として空間形式に復元
バイナリ クロス エントロピー損失による最適化
PCSA
CSA (constrained self-attation) は、グローバルな背景を学習するのではなく、ローカルなモーション パターンに焦点を当てています。
突き出たオブジェクトはさまざまなサイズを持ち、さまざまな速度で移動できることを考慮して、一連の CSA を使用してピラミッド構造を形成します。
自意識過剰
連続するフレームの相関測定とコンテキストを Q の近傍に制限します
例えば、下の図では、最初のフレームのオブジェクトは、隣接するフレームのオブジェクトと同様の位置を持っています.これに基づいて、Q 行列の特徴要素 x(t, h, w) について、その値を取得します。 K マトリックスでは、フレーム: 1-T、高さ: h-dr、h+dr、幅: w-dr、w+dr に限定された相関を測定するために周囲の領域が使用されます。
ピラミッドの組み合わせ
これは、PNS-Net で使用されるリファレンスです。
固定サイズの単一の制約付き自己注意は、さまざまな速度とさまざまなサイズによって引き起こされる移動オブジェクトを認識できません。また、マルチヘッド メカニズムには、さまざまなモーション状況に適応するために、ヘッドごとに異なるウィンドウ サイズと移動範囲があります。
複数のヘッドと複数のスケールを組み合わせる
マルチヘッド: 並行して、入力フィーチャをチャネルに沿って g 個のグループに分割し、各グループに制約付き自己注意を使用します
mg-g44DU2tR-1653467435113)]
ピラミッドの組み合わせ
これは、PNS-Net で使用されるリファレンスです。
固定サイズの単一の制約付き自己注意は、さまざまな速度とさまざまなサイズによって引き起こされる移動オブジェクトを認識できません。また、マルチヘッド メカニズムには、さまざまなモーション状況に適応するために、ヘッドごとに異なるウィンドウ サイズと移動範囲があります。
複数のヘッドと複数のスケールを組み合わせる
マルチヘッド: 並行して、入力フィーチャをチャネルに沿って g 個のグループに分割し、各グループに制約付き自己注意を使用します
マルチスケール: 異なるグループ、異なるウィンドウ サイズ、異なる d と r