【AAAI2021】画像キャプション用デュアルレベル協調トランスフォーマー

【AAAI2021】画像キャプション用デュアルレベル協調トランスフォーマー

添付: 論文ダウンロードアドレス
添付: コードダウンロードアドレス

論文の主な貢献

  1. リージョン機能とグリッド機能の相補性を実現する、新しい二重層協調トランスネットワーク (DLCT) を提案します。MS-COCO データセットに関する広範な実験により、この方法の優位性が実証されています。
  2. Location Constrained Intersection Attention (LCCA) は、2 つのフィーチャ ソースの直接融合によって引き起こされるセマンティック ノイズの問題に対処するために提案されています。構築された幾何学的アラインメント マップを使用して、LCCA は異なるソース フィーチャ間の相互作用を正確に実現するだけでなく、クロスアテンション フュージョンによってさまざまなフィーチャを強化します。
  3. 画像説明の絶対位置情報を調査する最初の試み。レイヤー内およびレイヤー間の関係のモデリングは、絶対位置情報と相対位置情報を統合することでさらに改善されます。

序文

オブジェクト検出ネットワークによって抽出された記述領域の特徴は、近年、画像キャプションの生成において重要な役割を果たしてきました。ただし、従来のグリッド機能の利点である、コンテキスト情報ときめ細かな詳細が不足しているとの批判が依然としてあります。このホワイト ペーパーでは、著者はこれら 2 つの機能を視覚的な入力として使用し、新しい 2 層共同トランスフォーマー ネットワーク (DLCT) を導入して、画像記述における領域とグリッド機能の補完的な利点を実現します。具体的には、DLCT では、2 種類のフィーチャ ソースが最初に新しい Dual-Way Self Attention (DWSA) によって処理されて固有のプロパティがマイニングされ、Comprehensive Relation Attention (CRA) モジュールが導入されて幾何学的情報が埋め込まれます。 Locality-Constrained Cross Attention モジュール (LCCA) は、これら 2 つの機能の直接的な融合によって引き起こされるセマンティック ノイズを解決するために提案されています。このモジュールでは、地域とネットワークのパーソナリティ特性を正確に調整して強化するために幾何学的アラインメント マップが構築されます。また、MS-COCO データセットで広範な実験を行い、ローカルとオンラインの両方のテスト セットで最先端のパフォーマンスを実現しています。

論文法(DLCT)

このホワイト ペーパーで提案されている 2 層の協調型 Transformer ネットワーク アーキテクチャを下の図に示します。CRA は、絶対的および相対的な方法で位置情報を統合するように設計されており、DWSA を使用して 2 つのフィーチャの固有のプロパティをマイニングし、LCCA を使用して領域とグリッド間の相互作用を実現し、幾何学的配置マップを使用して、LCCA はセマンティック ノイズを効果的に排除し、達成することができます。レイヤー間の融合。
ここに画像の説明を挿入

位置情報の統合

以前の方法は、領域の位置関係を相対的にモデル化するだけでした。したがって、著者らは、絶対的および相対的な位置情報を統合することにより、入力フィーチャ間の複雑な視覚的および位置的関係をモデル化する Comprehensive Relation Attention (CRA) モジュールを提案しています。

絶対位置コード

絶対位置エンコーディング (APE) は、特徴がどこにあるかをモデルに伝えます。同じ外観特徴を持つ 2 つのオブジェクトがあり、1 つは隅にあり、もう 1 つは中央にあるとします。この場合、APE はモデルがそれらを正確に区別するのに役立ちます。 . APE の場合、著者はグリッドと領域という 2 種類の視覚的特徴を考慮しました。
グリッドの場合、著者は 2 つの 1D サインおよびコサイン埋め込みの連結を使用してグリッド位置エンコーディング (GPE) を取得します:
GPE ( i , j ) = [ PE i ; PE j ] GPE(i,j)=[PE_i; PE_j]GPE ( i , _ _j )=[ P E;PE _]其中 i , j i,j 私はjはグリッドの行インデックスと列インデックスです。PE i , PE j ∈ R dmodel / 2 PE_i, PE_j ∈ R^{d_{model}/2}PE _PE _εRdモデル_ _ _ _/ 2は次
ここに画像の説明を挿入ように定義されます。p o s は位置を意味し、kkk は次元数を表します。
領域の場合、作成者は領域位置符号化 (RPE) にB i B_iB
B i = ( xmin , ymin , xmax , ymax ) , B_i=(x_{min},y_{min},x_{max},y_{max}),B=( ×みん_ _yみん_ _バツマエックス_ _yマエックス_ _) RPE ( i ) = B i W emb RPE(i)=B_iW_{emb}RPE ( i ) _ _=BWe m b其中 i i i是box的索引, ( x m i n , y m i n ) (x_{min},y_{min}) ( ×みん_ _yみん_ _)( xmax , ymax ) (x_{max},y_{max})( ×マエックス_ _yマエックス_ _) は、それぞれボックスの左上隅と右下隅を表します。W emb ∈ R dmodel / 4 W_{emb}∈R^{d_{model}/4}We m bεRdモデル_ _ _ _/ 4は埋め込みパラメータ行列です。

相対位置コード

視覚的特徴の相対位置情報をより適切に統合するために、作成者は境界ボックスの幾何学的構造に従って相対位置情報を追加します。領域の境界ボックスは( x , y , w , h ) (x, y, w, h)として表現できます。( x ,y w h),其中 x , y , w , h x, y, w,h × y w h はボックスの中心座標とその幅と高さを表します。グリッドはバウンディング ボックスの特殊なケースであることに注意してくださいしたがって、グリッドはそれぞれのフィールドに従って( x , y , w , h ) (x, y, w, h)( x ,y w h ) . したがって、boxi box_i× _boxj box_j× _、それらの幾何学的関係は 4 次元ベクトルとして表すことができます。
ここに画像の説明を挿入次に、Emb メソッドを使用してΩ ( i , j ) \Omega(i,j) を変換します。Ω (,j )高次元エンコーディングに埋め込まれ、最終的なΩ ( i , j ) \Omega(i,j)Ω (,j ) は、 2 つのボックス間の幾何学的関係を表すスカラーにマップされます:
Ω ( i , j ) = R e LU ( E mb ( Ω ( i , j ) ) WG ) \Omega(i,j)= ReLU(Emb( \オメガ(i,j))W_G)Ω (,j )=R e L U ( E m b ( Ω ( i ,j ) )G)其中 W G W_G WG学習したパラメーター マトリックス。

合成関係注意モジュール

位置の絶対的および相対的な情報を抽出した後、それらは Comprehensive Relation Attention (CRA) を使用して統合できます。APE の場合、Attention レイヤーのクエリとキーを変更します。
W = ( Q + posq ) ( K + posk ) T dk W=\frac{ { (Q+pos_q)(K+pos_k)}^T}{\sqrt {d_k}}W=dk ( Q+ポーズ_ _q) ( K+ポーズ_ _k)Tここでposq pos_qポーズ_ _qposk pos_kポーズ_ _kはそれぞれクエリとキーの APE であり、相対位置情報を使用して注意の重みを調整します: W ij ′ = W ij + log ( Ω ( i , j ) ) W^\prime_{ij}=W_{ij} +log(\オメガ (i,j))W=W+log ( Ω ( i , _ _j ) )最後に、ソフトマックスを適用して重みを正規化し、CRA の出力を計算します。マルチヘッド CRA (MHCRA) は次のように定義されます。
ここに画像の説明を挿入

二段協調エンコーダ

与えられた画像に対して、まずグリッド特徴を抽出しますVG = { vi } NG V_G=\{v_i\}^{N_G}G={ v}NGそして地域特徴VR = { vi } NR V_R=\{v_i\}^{N_R}R={ v}NRNG N_GNGNR N_RNR対応する特徴の数です。エンコーダーは、2 つのサブモジュールで構成されています: デュアルウェイ セルフ アテンションとローカリティ制約クロス アテンション

二重自己注意(DWSA)

一般に、視覚的特徴は局所的に接続された畳み込みによって抽出されるため、それらは分離され、関係に依存しなくなります。Transformer Encoder は、入力間の関係をモデル化し、Self Attention によって視覚的特徴を充実させることができるため、画像記述のパフォーマンスに大きく貢献します。2 つの機能の層内関係をより適切にモデル化するために、著者は、2 つの独立した Self Attention モジュールで構成される双方向の Self Attention (DWSA) を設計します。
具体的には、領域H r ( l ) H_r^{(l)}Hr( l )およびグリッドH g ( l ) H_g^{(l)}Hg( l )入力の隠れ状態( l + 1 ) (l+1)( l+1 ) DWSA、学習関係認識表現:
ここに画像の説明を挿入ここで、H r ( 0 ) = VR 、H g ( 0 ) = VG H_r^{(0)}=V_R,H_g^{(0)}=V_GHr( 0 )=RHg( 0 )=GΩ rr \Omega_{rr}おおrr _Ω gg \Omega_{gg}おおg gは、それぞれ領域とグリッドの相対位置行列です。次に、2 つの独立した位置フィードフォワード ネットワーク FFN が視覚的特徴のタイプごとに使用されます。
ここに画像の説明を挿入その後、関係認識表現が次のモジュールに供給されます。

ローカリティ制約クロス・アテンション(LCCA)

著者らは、レイヤー間の融合を実現するために、領域とグリッド間の複雑な相互作用をシミュレートする Locality-Constrained Cross Attention (LCCA) モデルを提案しています。セマンティック ノイズの発生を避けるため、まず幾何学的な配置グラフG = ( V , E ) G = (V, E)を作成します。G=( V E )、すべての領域およびグリッド機能は独立したノードとして表され、ビジュアル ノード セットVVV._ _ エッジ セットEEEの場合、グリッドとエリアのバウンディング ボックスの間に交差がある場合にのみ、グリッド ノードはエリア ノードに接続されます。上記のルールに従って無向グラフを作成します。下の図に示すように、交差する領域とグリッド (同じ色で強調表示) は無向エッジで接続され、意味的に無関係な情報が排除されます。各ノードには自己接続エッジがあることに注意してください
ここに画像の説明を挿入
ソース ドメインとターゲット ドメインの 2 つの異なる視覚的特徴ドメインを識別するために、幾何学的配置マップに基づいて LCCA が適用されます。LCCA では、ソース ドメインはクエリとして機能し、ターゲット ドメインはキーと値として機能します。LCCA の目的は、ターゲット ドメインの情報をソース ドメインに埋め込むことにより、ソース ドメインの表現を強化することです。絶対位置情報と相対位置情報を統合して、重み行列W ' W^\primeWα ij = e W ij ' ∑ j ∈ A ( vi ) e W ij ' \alpha_{ij}=\frac {e^{W^\prime_{ij}}} { \sum_{j
∈A(v_i)}e^{W^\prime_{ij}}}a=j A ( v)eWeW其中 v i v_i vはビジュアル ノードA ( vi ) A(v_i)A ( v) v i v_i vの隣接するビジュアル ノード セット、加重和は次のとおりです。M i = ∑ j ∈ A ( vi ) α ij ( l ) V j M_i=\sum_{j∈A(v_i)} {\alpha^{(l)} _{ij}}V_jM=j A ( v)a( l )どこでVj V_jは、j 番目の可視ノード値です。簡単にするために、著者はこの段階を次のように表現します。M=Gグラフ_ _ _ _だからf t max ( W _) V _その中で、graph-softmax は、隣接していない可視ノードに 0 の重みを割り当て、G に基づいてソフトマックスを実行します。したがって
ここに画像の説明を挿入、マルチヘッド LCCA (MHLCCA) は次のように表現できます。lの出力は:
ここに画像の説明を挿入ここでΩ rg \Omega_{rg}おおrg _は領域とグリッド間の相対位置行列Ω gr \Omega_{gr}おおグラム_グリッドと領域の間の相対位置行列です。
LCCA では、領域がグリッドに埋め込まれ、その逆も同様で、両方の機能が強化されます。具体的には、グリッド フィーチャは領域を介して高レベルのオブジェクト情報を取得し、領域はグリッドを介して詳細なコンテキスト情報を補足します。LCCA は、幾何学的アラインメント マップを利用して、意味的に無関係な視覚的特徴情報を制限し、セマンティック ノイズを除去し、相互注意を効果的に適用します。
リージョンは 1 つ以上のグリッドにスナップでき、グリッドは 0 個以上のリージョンにスナップできることに注意してください。領域と整列していないグリッドが存在する可能性がありますしたがって、幾何学的に整列したグラフのノードごとに自己接続エッジが作成されます。さらに、自己接続されたエッジにより、注意モジュールに他の機能に焦点を合わせないという追加のオプションが与えられます。ll層l、モジュールの後に 2 つの独立した FFN が続くことに注意してください: H r ( l + 1 ) = FFN r ′ ( M r ( l ) , H_r^{(l+1)}=FFN_r^\prime(M_r^ { (l)})、Hr( l + 1 )=F F Nr( Mr( l )) , H g ( l + 1 ) = FFN g ' ( M g ( l ) ) H_g^{(l+1)}=FFN_g^\prime(M_g^{(l)})Hg( l + 1 )=F F Ng( Mg( l )) LCCA の出力が DWSA の入力として機能することに注意してください。マルチレイヤ エンコーディングの後、グリッド フィーチャとリージョン フィーチャが連結され、デコーダ レイヤに供給されます。

目標

与えられたグラウンド トゥルース シーケンスy 1 : T ∗ y_{1:T}^*y1 : Tパラメータθ \thetaを使用θの記述モデルは、交差エントロピー損失を最適化します: LXE = − ∑ t = 1 T log ( p θ ( yt ∗ ∣ y 1 : t − 1 ∗ ) ) L_{XE}=-\sum_{t=1} ^{ T} {log(p_\theta(y_{t}^*|y_{1:t-1}^*))}LX E=t = 1Tログ( p _ _( _t∣y _1 : t 1) )具体的には、CIDER-D システムのスケマティック スケジューリング システム (SCST):∇ θ LRL ( θ ) = − 1 k ∑ i = 1 k ( r ( y 1 : T i ) − b ) . ∇ θ logp θ ( y 1 : T i ) \nabla_\theta L_{RL}(\theta)=-\frac {1} {k}\sum_{i=1}^{k}{(r(y_{1). : T}^i)-b)\nabla_\theta logp_\theta(y_{1:T}^i)}LR L( i )=k1私は= 1k( r ( y1 : T)b ) ログp _ _( _1 : T)ここで、k はビーム サイズ、r は CIDEr-D スコア関数、b = ( ∑ ir ( y 1 : T i ) ) / kb=(\sum_{i} {r(y_{1:T}^i )} )/kb=( r ( y1 : T) ) / kはベースラインです。

実験

データセット

著者は、COCO データセットで実験を行いました。データセットには 123,287 枚の画像が含まれており、それぞれに 5 つの異なるキャプションが付いています。オフライン評価では、トレーニング、検証、およびテストにそれぞれ 113287、5000、5000 の画像を使用して、カルパシー分割アルゴリズムが採用されています。

実験設定

著者は、VG データセットで事前にトレーニングされた Faster-RCNN モデルを使用して特徴を抽出します. グリッド特徴の場合、それらは平均して 7×7 のサイズにプールされます. 地域特徴の場合、同じモデルを使用して 2048 次元の特徴を抽出します. .
実験では、dmodel d_{model}dモデル_ _ _ _512 に設定し、8 に向かいます。エンコーダーとデコーダーのレイヤー数はいずれも 3 に設定されています。XE 事前トレーニング フェーズでは、モデルは 4 エポックの間予熱され、学習率は1 × 1 0 − 4 1 × 10^{-4}まで直線的に増加します。1×1 04なら 5∼10 エポックの学習率は1 × 1 0 − 4 1×10^{-4}1×1 04 , 11∼12 エポックの学習率は2 × 1 0 − 6 2×10^{-6}2×1 06なら4 × 1 0 − 7 4×10^{-7}4×1 07、バッチ サイズは 50 に設定されます。トレーニング後、CIDEr 報酬を使用した最適化段階での学習率は5 × 1 0 − 6 5 × 10^{-6}5×1 06、バッチ サイズは 100 に設定され、Adam オプティマイザーは両方のステージで使用され、ビーム サイズは 5 に設定されます。

性能比較

オフライン評価

ここに画像の説明を挿入

オンライン査定

ここに画像の説明を挿入

アブレーション実験

特徴

標準の Transformer を使用していくつかの機能についていくつかの実験を行い、このホワイト ペーパーの方法と比較しました。
ここに画像の説明を挿入

CRA

CRA はグリッド フィーチャ モデルとエリア フィーチャ モデルのパフォーマンスを向上させることができ、LCCA と連携してパフォーマンスを向上させることもできます. 記述モデルは、絶対位置情報と相対位置情報を統合することにより、外観フィーチャとそれらの間の関係をよりよく理解できます.
ここに画像の説明を挿入

LCCA

2 つの選択肢が考えられます。1 つは LCCA を使用しない DLCT で、もう 1 つは完全な 2 部グラフ (CBG) を使用する LCCA で、すべてのグリッド ノードとリージョン ノード間で相互注意が適用されます。それらはすべてLCCAよりもパフォーマンスが悪く、LCCAの優位性を示しています。CBG を使用した DLCT は、ラスター フィーチャ入力を使用した標準の Transformer よりもさらに悪いことに注意してください。これは、領域とラスター間の関係の粗いモデリングによって導入されたセマンティック ノイズの障害を示しています。
ここに画像の説明を挿入

要約する

この論文では、著者は、画像によって記述された領域とメッシュの特徴の相補性を実現するために、2 層の共同トランスフォーマーを提案しています。モデルには、包括的リレーショナル アテンション (CRA) と双方向自己アテンション (DWSA) の層内融合によって、領域とメッシュの外観と幾何学的特徴が組み込まれています。Locality Constrained Cross Attention (LCCA) を適用するためのジオメトリック アラインメント マップも提案されています。LCCA は、両方の機能を効果的に強化し、2 つの機能ソースの直接融合によって引き起こされるセマンティック ノイズの問題を解決します。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_46707326/article/details/120123246