RIS シリーズ ブリッジング ビジョン エンコーダと言語エンコーダ: 画像セグメンテーションを参照するためのパラメータ効率の高いチューニング 論文読書メモ
前に書く
夏休みに少し時間をとって実家に帰り、本を何冊か持ち帰ってきました。半年以上準備してきた2023CSCの申請が却下されたのは残念ですが、文句を言う筋合いもなく、ただ酔っていただけでした。それから卒業の準備をしてください。もしあなたが私をここに残さないなら、私には自分の居場所があります。
- 論文アドレス:ビジョンと言語エンコーダのブリッジング: 参照のためのパラメータ効率の高いチューニング
- コードアドレス: https://github.com/kkakkkka/ETRIS
- 開催日: ICCV 2023
- 2023年も毎週ブログ記事を読むための読書メモですホームページでさらに役立つ情報を知りたい方はぜひフォローしてください 5,000人のファンの皆様のご参加をお待ちしております~
1. 概要
Parameter Efficient Tuning (PET) は、SOTA パフォーマンスを維持しながらパラメータの数を減らすことができ、使いやすいハードウェア リソースを提供します。しかし、高密度予測タスクと複数のモダリティ間の相互作用に焦点を当てた研究はほとんどありません。この論文では、参照画像セグメンテーション RIS における効率的なパラメータ微調整の問題を研究します。アダプター Bridger は、クロスモーダル情報交換を容易にし、機能タスク情報を事前トレーニング済みモデルに統合するために提案されています。同時に、軽量のデコーダが画像セグメンテーション用に設計されています。実験はとてもうまくいきました。
2. はじめに
参照イメージ セグメンテーション (RIS) の定義、セマンティック セグメンテーションとの違い、オープンワールドの語彙との関係。
汎用の事前トレーニング済みモデルを微調整する最近のアプローチはうまく機能しますが、多くのシナリオで導入するのは困難です。したがって、この記事では、事前にトレーニングされた Backbone のパフォーマンスを維持しながら、モデルで Backbone の重みを修正できるかという疑問が生じます。パラメーターの効率性とパフォーマンスのバランスを実現するパラメーター有効性トレーニング手法は多数ありますが、ほとんどの手法は単一のタスクまたは単純な分類タスクに限定されており、高密度の予測タスクや異なるモダリティ間の相互作用に焦点を当てた手法はほとんどありません。
この論文は、微調整手法と同等のパフォーマンスを達成しながら、事前トレーニング済みの視覚言語モデルを RIS での使用に適合させることを目的としています。
上の図に示すように、追加の Bridger ネットワークは事前トレーニングなしで最初に導入され、事前トレーニングされたモデルの元の構造にシームレスに統合できます。Bridger では、デュアル エンコーダー間の相互作用を促進するために、ビジョン固有のガイダンス バイアスが導入されています。Bridger には 2 つのモジュールがあります。空間事前モジュールは、特徴マップの中間層からローカル セマンティクスを取得するために使用されます。クロスモーダル アテンションにより、2 つのモダリティの情報が相互作用できるようになります。次に、軽量の機能タスク デコーダは、視覚的特徴と言語的特徴をさらに調整しながら、RIS セグメンテーション用に設計されています。このフレームワークでは、バックボーン ネットワークを、ビジュアル言語データ セットで事前トレーニングされた任意のネットワークに置き換えることができます。この記事では、ビジュアル言語エンコーダとして CLIP を使用します。貢献を以下に要約します。
- この問題を研究した最初の記事として、高密度予測タスクの詳細な調査が示されています。
- Bridger モジュールは、中間機能の相互作用を強化するために、事前トレーニングされたデュアル エンコーダー視覚言語モデルにシームレスに統合されるように設計されています。
- RIS 用の軽量デコーダを提案し、視覚言語機能をさらに調整します。
- 多数の実験がこの方法の有効性を示しています。
3. 関連作品
視覚言語モデル (VLM)
視覚言語モデリングの統一表現を活用して、視覚言語タスクを解決します。一般に、シングル ストリームとデュアル ストリームの 2 つのタイプに分類できます。前者は視覚言語埋め込みインタラクションに融合モジュールを使用し、後者は対照学習を使用して視覚言語埋め込みを調整します。この記事では、2 フロー モデルに焦点を当て、微調整方法を設計します。
パラメータ効率の高いチューニング (PET)
PET は、下流のタスクに移行するときに、事前トレーニングされたモデルのトレーニング可能なパラメーターの量を減らすことを目的としています。微調整と比較して、PET は特定のタスクに対してモデル全体のパフォーマンスを維持しながら、導入が容易です。最近の方法は 3 つのタイプに分類できます。 1. アダプター、プレフィックス チューニング、およびプロンプト チューニングと同様に、新しく追加されたモジュール パラメーターまたは入力を更新します。2. Bit-Fit や Diff Pruning と同様に、一部のモデル パラメーターをまばらに更新します。3. LoRA、Compacter、Consolidator に似た、低ランクの再パラメータ化されたモデルの重み。ただし、ほとんどの方法は分類と一般的なタスクのみに焦点を当てており、マルチモーダル タスクのセグメンテーションと同様に、密な予測タスクは無視されます。この論文では、下流タスクでの転送効率を促進するマルチモーダル適応モジュールを設計することにより、事前トレーニングされた視覚言語モデルにおける 2 つのデコーダーの相互作用を強化します。
参照画像セグメンテーション (RIS)
初期の研究は主に、RRN や RMI などの CNN-LSTM 手法に基づいていました。Transformer の開発に伴い、MDETR、VLT、CRIS、PCAN などのアテンション メカニズムを探求する多くの研究が開始されました。このホワイトペーパーでは、パラメータ妥当性手法を使用して、さまざまなモダリティの機能を融合および調整することに焦点を当てています。
4. 方法
4.1 画像とテキストの特徴抽出
特徴はそれぞれ画像エンコーダーとテキスト エンコーダーを通じて抽出され、これら 2 つのエンコーダーのパラメーターは微調整プロセス中にフリーズされます。
画像エンコーダ
与えられた入力画像I ∈ RH × W × 3 I\in R^{H\times W\times3}私∈RH × W × 3、画像エンコーダの中間層から特徴量を抽出します。ResNet などの CNN エンコーダの場合、最後のN − 1 N-1N−ステージ1の視覚的特徴はF vi F_v^iとして定義されます。Fv私は,i ∈ { 2 , … , N } i\in\{2,\ldots,N\}私∈{ 2 、…、N } . ViT などのビジョン Transformer の場合、ViT の Transformer エンコーダはNNN 個のブロック、それぞれにL/NL/NL / Nエンコーダ層、最後のN − 1 N-1N−1ブロックの出力は機能インタラクションを実行します。これらの抽出された特徴は、マルチモーダル特徴アライメントのためのブリッジャーおよびデコーダーへの入力として使用されます。
テキストエンコーダ
入力参照式TTの場合T、Bert を使用してテキストの特徴を抽出します。Transformer エンコーダをNNNブロック、特徴を抽出F ti ∈ RL × C F_t^i\in R^{L\times C}Ft私は∈RL × C,i ∈ { 2 , … , N } i\in\{2,\ldots,N\}私∈{ 2 、…、N }、ここでCCCはフィーチャの寸法、LLLは式の長さです。[SOS] トークンと [EOS] トークンを追加した後、Transformer の最後の層にある [EOS] トークンのアクティブ化値をさらに使用して、テキストF s ∈ RC ' F_s\in R^{C^のグローバル表現を生成します。{\プライム}}Fs∈RC''、ここでC '' C^{\prime}C'はフィーチャの次元です。
4.2 画像とテキスト機能のインタラクション
画像およびテキストエンコーダの中間特徴を処理するために、視覚言語対話モジュール Bridger が提案されています。
複数の視覚的特徴が与えられた場合F vi F_v^iFv私は,i ∈ { 2 , … , N } i\in\{2,\ldots,N\}私∈{
2 、…、N }と言語機能F ti F_t^iFt私は,i ∈ { 2 , … , N } i\in\{2,\ldots,N\}私∈{
2 、…、N } . まず、ズーム レイヤー (ZL) を使用して特徴の寸法を調整します。
F ^ vi = ZL in ( F vi ) F ^ ti = Linear ( F ti ) \begin{gathered} \hat{ {
F}}_{v}^{ i } =\mathrm{ZL}_{in}(F_v^i) \\ \hat{F}_{t}^{i} =\text{Linear}(F_t^i) \end{gathered}F^v私は=ZLで( Fv私は)F^t私は=リニア( Ft私は)ここで ZL は \mathrm{ZL}_{in} にありますZLでZomm Layer のズームイン操作を示します。その後、インタラクター インタラクター (ITA) によってこれらの機能が融合されます。
f ^ vi = ITA ( f ^ vi − 1 + F ^ vi , f ^ ti − 1 + F ^ ti ) f ^ ti = ITA ( f ^ ti − 1 + F ^ ti , f ^ vi − 1 + F ^ vi ) \begin{aligned}\hat{f}_v^i&=\text{ITA}(\hat{f}_v ^{i-1}+\hat{F}_v^i,\hat{f}_t^{i-1}+\hat{F}_t^i)\\\hat{f}_t^i&=\テキスト{ITA}(\hat{f}_t^{i-1}+\hat{F}_t^i,\hat{f}_v^{i-1}+\hat{F}_v^i)\終わり{整列}f^v私はf^t私は=ITA (f^vi − 1+F^v私は、f^ti − 1+F^t私は)=ITA (f^ti − 1+F^t私は、f^vi − 1+F^v私は)最後に、ズーム レイヤーと線形投影によって元の次元を復元し、バックボーンの次のステージ (ブロック) で残りの接続を使用してこれらの機能を組み合わせます。
fvi = ZL out ( f ^ vi ) fti = Linear ( f ^ ti ) F vi + 1 = F vi + 1 + fvi F ti + 1 = F ti + 1 + fti \begin{aligned} &\begin{aligned}f_v^i=\mathrm{ZL}_{out}(\hat{f } _v^i)\end{aligned} \\ &\begin{aligned}f_t^i=\text{Linear}(\hat{f}_t^i)\end{aligned} \\ &F_{v}^{ i +1}=F_{v}^{i+1}+f_{v}^{i} \\ &F_{t}^{i+1}=F_{t}^{i+1}+f_{ t }^{i} \end{整列}fv私は=ZLあなたは_(f^v私は)ft私は=リニア(f^t私は)Fv私+ 1=Fv私+ 1+fv私はFt私+ 1=Ft私+ 1+ft私はここでZL out \mathrm{ZL}_{out}ZLあなたは_Zoom Layerのズームアウト操作については、次にZoom Layerの構造を詳しく紹介します。
ズームレイヤー(ZL)
最近の研究では、畳み込みが Transformer が画像のローカルな空間コンテキスト情報をキャプチャするのに有益であることが示されています。したがって、ViT 中間層の特徴は、RD × CR^{D\times C}から変更されます。RD × Cは RH × W × CR^{H\times W\times C}に変形されますRH × W × C、畳み込みを使用してズーム レイヤーを形成します。ResNet の場合、最初に2 × 2 2\times2 を2×2 つの畳み込みにより、1 番目と 2 番目の特徴マップのサイズが削減されます。バックボーン中間層から抽出されたすべての特徴マップについて、ズーム層を使用してサイズを調整します。
F ^ vi = { Conv ( F vi ) 、 hi > = h ' 、 wi > = w ' DeConv ( F vi ) 、 hi < h '' , wi < w '' \hat{F}_v^i=\left\{\begin{array}{cc}\text{Conv}\left(F_v^i\right),&h_i>=h', w_i> =w'\\\text{DeConv}\left(F_v^i\right),&h_i<h',w_i<w'\end{array}\right。F^v私は={
コンバージョン( Fv私は)、デコンブ( Fv私は)、h私は>=h「、」w私は>=w』h私は<h「、」w私は<w「どこでh'h'h「,わ」w'は特徴マップの高さと幅です。フィーチャをバックボーンに追加し直した後、ズーム レイヤーを使用して、ズームインの逆であるズームアウト操作を実行します。
インタラクター (ITA)
ITA は、アテンション メカニズムと順伝播ネットワークに基づいて設計されています。異なるモダリティの特徴の場合、元の特徴がクエリとして使用され、他のモダリティの特徴がキーと値として使用されます。相互作用プロセスは次のとおりです。
f ^ vi = FMHSA ( f ^ vi − 1 + F ^ vi ) f ^ ti = F MHSA ( f ^ ti − 1 + F ^ ti ) f ^ vi , f ^ ti = FMHCA ( f ^ vi , f ^ ti ) , FMHCA ( f ^ ti , f ^ vi ) f ^ vi , f ^ ti = FFN ( f ^ vi ) , FFN ( f ^ ti ) \begin{aligned} &\hat{f }_{ v}^{i}=\mathcal{F}_{\mathrm{MHSA}}(\hat{f}_{v}^{i-1}+\hat{F}_{v}^ {i} ) \\ &\hat{f}_{t}^{i}=\mathcal{F}_{\text{MHSA}}(\hat{f}_{t}^{i-1} +\hat {F}_{t}^{i}) \\ &\hat{f}_{v}^{i},\hat{f}_{t}^{i}=\mathcal{F }_{ \mathsf{MHCA}}(\hat{f}_{v}^{i},\hat{f}_{t}^{i}),\mathcal{F}_{\mathsf{MHCA }}( \hat{f}_{t}^{i},\hat{f}_{v}^{i}) \\ &\hat{f}_{v}^{i},\hat {f} _{t}^{i}=\text{FFN}(\hat{f}_{v}^{i}),\text{FFN}(\hat{f}_{t}^{ i}) \end{整列}f^v私は=FMHSA(f^vi − 1+F^v私は)f^t私は=FMHSA(f^ti − 1+F^t私は)f^v私は、f^t私は=FMHCA(f^v私は、f^t私は)、FMHCA(f^t私は、f^v私は)f^v私は、f^t私は=FFN (f^v私は)、FFN (f^t私は)
4.3 タスク固有のデコーダ
カスケード型アライメントモジュール
複数の視覚的特徴セットが与えられた場合F vi F_v^iFv私は,i ∈ { 2 , … , N } i \in \{2,\ldots,N\}私∈{
2 、…、N }とグローバルテキスト表現F s F_sFs、畳み込みとクロスモーダル アテンションを通じてマルチモーダル機能の融合を取得します。カスケード融合フィーチャーの場合は、単純に連結して1 × 1 1\times1を取得します。1×1卷积来聚合:
fmi = C onv ( F vi ) fmi = F МНСА ( fmi , F s ) F m = C onv ( [ fm 2 , . . . , fm N ] ) \begin{aligned} &f_m^i =\mathrm{Conv}(F_v^i) \\ &f_{m}^{i}=\mathcal{F}_{\text{МНСА}} ( f _ { m }^{i},F_{s} ) \\ &F_{m}=\mathrm{Conv}\left([f_{m}^{2},...,f_{m}^{N}]\right) \end{aligned}fメートル私は=コンバージョン( Fv私は)fメートル私は=FMNSA( fメートル私は、Fs)Fメートル=コンバージョン( [ fメートル2、... 、fメートルN] )ここで、[,] はスプライシング操作であり、畳み込み操作はさまざまな段階でフィーチャの寸法を統一するために使用されます。最後に、2D 空間座標特徴F cood ∈ RH 16 × W 16 × C F_{cood}\in R^{\frac{H}{16}\times\frac{W}{16}\times C}Fクーデター_∈R16H×16W× CはF m F_mに接続されますFメートルオンにしてから、3 × 3 3\times3を使用します3×融合のための3 つの畳み込み。次に、視覚特徴F v ∈ RH 16 × W 16 × C F_v\in R^{\frac{H}{16}\times\frac{W}{16}\times C} を計算します。Fv∈R16H×16W× C:
F v = Conv ( [ F m , F coord ] ) F_v=\text{Conv}\left([F_m,F_{coord}]\right)Fv=コンバージョン( [ Fメートル、Fコーディネート_] ) F v F_vFv次に、2D 空間は後続の処理のためにシーケンスに平坦化されます。
グローバルアライメントモジュール
テキスト情報と対応する視覚的特徴は、Transformer のアテンション モジュールを使用して結合されます。マルチモーダル機能ありF v F_vFvおよび文レベルの特徴F s F_sFs入力として、まず固定空間位置エンコーディングをF v F_vに追加します。FvとF s F_sFs優れた。次に、セルフ アテンションとクロスモーダル アテンションによって更新されたマルチモーダル特徴のセットが生成され、グローバル コンテキスト情報が取得されます。
fc = FMHSA (F v ) fc = FMHCA ( fc , F s ) F c = FFN ( fc ) \begin{aligned} &f_{c}=\mathcal{F}_{\text{MHSA}}(F_{v}) \\ &f_{c}=\mathcal{F}_{\mathsf{MHCA} }( f_{c},F_{s}) \\ &F_{c}=\mathrm{FFN}(f_{c}) \end{aligned}fc=FMHSA( Fv)fc=FMHCA( fc、Fs)Fc=FFN ( fc)その中で、更新されたマルチモーダル機能F c F_{c}Fc最後のセグメンテーションタスクに使用します。
プロジェクター
F c F_{c} でFcとF s F_sFs上用プロジェクタ:
F c ' = UpSample ( F c ) Z c = Conv ( F c ' ) Z t = Linear ( F s ) \begin{aligned}F_c'&=\text{UpSample}\left(F_c\ right)\\Z_c&=\text{Conv}\left(F_c'\right)\\Z_t&=\text{Linear}\left(F_s\right)\end{aligned}Fc「ZcZた=アップサンプル( Fc)=コンバージョン( Fc「)=線形( Fs)ここで、UpSample \text{UpSample}UpSample は4 × 4\timesを意味します4 ×アップサンプリング、畳み込み、線形射影演算はF c F_{c}FcとF s F_sFsZ c ∈ RN × D Z_{c}\in R^{N\times D}に変形Zc∈RN × D,N = H 4 × W 4 N=\frac{H}{4}\times\frac{W}{4}N=4H×4W和Z t ∈ RC Z_t\in R^{C}Zた∈RC,C = K × K × D + 1 C=K\times K \times D + 1C=K×K×D+1、次にZ t Z_tZた重み∈ RD × K × K \in R^{D\times K \times K}に変形します。∈RD × K × K和 バイアス∈ RD \in R^D∈RD、ここでKKKは畳み込み層のカーネルのサイズです。この畳み込みはモダリティ全体のZ c Z_cZc最終的なマスク予測に変換されます。
4.4 トレーニングの目的
CLIP のコントラスト損失を考慮して、テキストから画像へのコントラスト損失をトレーニング ターゲットとして使用して、Z t Z_tが確実に満たされるようにします。Zた対応するZ c Z_cと同様Zc、無関係なZ c Z_cとは似ていませんが、Zc:
L con ( Z t , Z c ) = 1 ∣ P ∪ N ∣ ∑ i ∈ P ∪ NL con i ( Z t , Z ci ) L_\text{con }(Z_t,Z_c)=\frac{1}{ |\mathcal{P}\cup\mathcal{N}|}\sum_{i\in\mathcal{P}\cup\mathcal{N}}L_{\text{con }}^i\left(Z_t,Z_c ^i\そうです)Lコン ( Zた、Zc)=∣P _∪N ∣1i ∈ P ∪ N∑L詐欺 私は( Zた、Zc私は)ここでP \mathcal{P}PとN \mathcal{N}N はGT のカテゴリ 1 と 0 をそれぞれ表します。L con L_{\text{con}}Lコン以下のように:
L coni ( Z t , Z ci ) = { − log ( σ ( Z t ⋅ Z ci ) ) , i ∈ P − log ( 1 − σ ( Z t ⋅ Z ci ) ) , i ∈ N L_\mathrm{con}^i\left.(Z_t,Z_c^i)\right.=\begin{cases}-\log\left(\sigma\left(Z_t\cdot Z_c^i\right)\right) ,&i\in\mathcal{P}\\-\log\left(1-\sigma\left(Z_t\cdot Z_c^i\right)\right),&i\in\mathcal{N}\end{cases}L詐欺私は( Zた、Zc私は)={
−ログ_( p( Zた⋅Zc私は) )、−ログ_( 1−p( Zた⋅Zc私は) )、私∈P私∈Nここでσ \sigmaσはシグモイド関数であり、セグメンテーション結果はσ ( Z t Z ˙ c ) \sigma\left(Z_t\dot{Z}_c\right) をp( ZたZ˙c)は H 4 × W 4 {\frac{H}{4}}\times{\frac{W}{4}}に変形されます4H×4W、その後、元の画像サイズにアップサンプリングされます。
5. 実験設定
5.1 データセット
RefCOCO、RefCOCO+、G-Ref。
5.2 実装の詳細
CLIP を使用してテキスト エンコーダーと画像エンコーダーを初期化します。画像バックボーンはそれぞれ ResNet-50 と ResNet-101 を使用します。すべてのアブレーション実験には ViT-B を使用しました。入力画像サイズ416 × 416 416\times416416×416では、RefCOCO と RefCOCO+ の入力文は 17 ワードに制限されており、[SOS] と [EOS] でトークンを形成するのに便利ですが、G-Ref には 22 ワードがあります。Transformer デコーダーには 3 つのレイヤーがあり、各レイヤーには 8 つのヘッドがあり、FFN 次元は 512、プロジェクターの最後のレイヤーのコンボリューション カーネル サイズは 3 です。50 エポックのトレーニング、Adam オプティマイザー、学習率λ = 0.0001 \lambda =0.0001私=0.0001。ViT の場合、ブリッジャーの学習率はλ = 0.001 \lambda =0.001私=0.001、ResNet 学習率はλ = 0.0001 \lambda =0.0001私=0.0001、35 エポックでは、学習率が0.1 0.10.1。Batch_size 32、2 NVIDIA A100 (お金)。推論段階では、二値化のしきい値は 0.35 です。
評価メトリックには、Intersection over Union (IoU) と Precision@X が使用されます。
6. 実験結果
6.1 主な結果
6.2 定性分析
6.3 アブレーション研究
Bridger 番号と場所の役割
ZL合成の役割
Bridger、カスケード アライメント モジュール、およびグローバル アライメント モジュールの役割
7. ディスカッション
カテゴリ名をテキストとみなすことによるセマンティック セグメンテーション、FPN を統合することによるオブジェクト検出、デコーダに若干の変更を加えた分類という 3 つのバリアントが同時に提案されています。付録 A の内側。
8. 結論
本稿では、RIS の効率的なパラメータ微調整方法を提案します。Bridger は、ビジュアル エンコーダとテキスト エンコーダの間で対話するように提案されており、畳み込みとアテンション メカニズムを組み合わせることにより、後続のビジュアル言語機能カスケードとグローバル アライメント用に軽量デコーダが設計されます。実験はうまくいきました。
付録 A. さらなる分析
次元を隠すブリッジャーの役割
スケーラビリティ
より広い影響力
私たちの方法は、分類と同様に、セマンティック セグメンテーションまたは非密予測タスクに使用できます。理由: Bridge 構造は、初期のモーダル融合とマルチスケール機能の集約を促進できます。詳細には、追加されたブリッジャーは、2 つのエンコーダーのパラメーターを固定しながら、MDETR のビジュアル バックボーンをテキスト エンコーダーに接続できます。
付録 B. 制限事項
視覚的に同じ程度の混乱
高密度オブジェクト画像の不安定性の処理
裏に書く
週末にこのブログ投稿をようやく完成させたので、これからコードに取り組む必要があります。