クロスモーダル検索紙読み:IMRAM

IMRAM: クロスモーダル画像テキスト検索のための反復注意記憶による反復マッチング

IMRAM: クロスモーダル画像テキスト検索のためのリカレント アテンション メモリベースの反復マッチング[2020 年 3 月 8 日提出]

概要

既存の方法は、注意メカニズムを利用して、視覚と言語の間の対応をきめ細かく調査します。ただし、それらのほとんどはすべてのセマンティクスを同等に考慮しているため、複雑さに関係なく均一に調整されています。実際、セマンティクスは多様であり (つまり、さまざまな種類のセマンティック概念が含まれます)、人間は通常、基礎となる構造に従って、それらを理解可能な言語に結合します。既存の方法では、このような複雑な対応を最適に捉えるのに苦労しています。

この欠点に対処するために、この論文では、Recurrent Attentional Memory Networks に基づく Recurrent Attentional Memory (IMRAM) 法による反復マッチングを提案します異なるモダリティからのセグメントを整列させるためのクロスモーダルアテンションユニットを備えた反復マッチングスキーム、および(2)初期ステップから後続ステップへのアライメント知識を洗練するためのメモリ蒸留ユニット。Flickr8K、Flickr30K、MS COCO の 3 つのベンチマーク データセットと、実際の商用広告シナリオ用の新しいデータセット (KW AI-AD) で SOTA を達成しました。

反復マッチング スキームは、クロスモーダル アテンション カーネルを徐々に更新し、一致するセマンティクスをローカライズするための手がかりを蓄積できます。一方、メモリ蒸留ユニットは、クロスモーダル情報のインタラクティブ性を強化することで、潜在的な対応を絞り込むことができます。これら 2 つのプロパティを使用すると、さまざまなタイプのセマンティクスをさまざまなマッチング ステップで適切に分散およびキャプチャできます。

方法

ここに画像の説明を挿入

クロスモーダル機能表現

画像表現: この記事では、Faster R-CNN などの事前トレーニング済みのディープ CNN を使用します。具体的には、画像 I が与えられると、CNN は画像領域を検出し、各画像領域 ri の特徴ベクトル fi を抽出します。次に示すように、fi を線形射影によって d 次元ベクトル vi にさらに変換します。
ここに画像の説明を挿入
ここで、Wv と bv は学習するパラメーターです。
簡単にするために、画像を V = {vi|i = 1, …, m, vi ∈ Rd} と表します。ここで、m は I で検出された領域の数です。
テキスト表現: 基本的に、テキストは文レベルまたは単語レベルで表現できます。視覚と言語の間のきめの細かい接続を実現するために、テキストの単語レベルの特徴を抽出します。これは、エンコーダとして双方向 GRU を使用して行うことができます。
ここに画像の説明を挿入

RAM: Recurrent Attention Memory

Recurrent Attention Memory は、以前のフラグメント アラインメントの知識を繰り返し洗練することにより、埋め込みスペース内のフラグメントをアラインすることを目的としています。これは、V と T という 2 つの特徴点セットを吸収し、これら 2 つの特徴点セット間の類似性をクロスモーダル アテンション ユニットを介して推定するブロックと見なすことができます。アテンションの結果は、メモリ蒸留ユニットを使用して洗練され、次の調整ステップのためのより多くの知識を提供します。
クロスモーダル アテンション ユニット (CAU)。目標は、 X の各特徴xiについて、Y のコンテキスト情報を要約することです。これを実現するために、最初に余弦関数を使用して各ペア ( xi、 y j )間の類似度を計算します。ここで、relu(x) = max(0, x)
ここに画像の説明を挿入
は記憶蒸留単位 (MDU) です。次のアラインメントのアラインメント知識を改善するために、メモリ蒸留ユニットを使用して、クエリ機能 X を、対応する X 接地アラインメント機能 Cx と動的に集約することで更新します。

実験

実験結果は,この方法がクロスモーダル画像テキスト検索に良い効果があることを示している。小さなデータセット Flickr8K と Flickr30K で最先端のパフォーマンスを一貫して達成できるだけでなく、大規模なデータセット MS COCO でもその堅牢性を十分に発揮します。
ここに画像の説明を挿入

ここに画像の説明を挿入

結論は

この論文では、セマンティクスの複雑さを処理するクロスモーダル画像テキスト検索のための Recurrent Attention Memory ネットワーク (IMRAM) に基づく反復マッチング法を提案します。IMRAM は、次の 2 つの機能を使用して、画像とテキスト間の対応を漸進的に探索できます: (1) 異なるモダリティからのセグメントを整列させるためのクロスモーダル アテンション ユニットを使用した反復マッチング スキーム; (2) メモリ蒸留ユニット、からの知識を洗練する早い段階から後の段階へ。実際の商用広告シナリオの 3 つのベンチマーク (Flickr8K、Flickr30K、MS COCO) と新しいデータセット (KW AI-AD) でモデルを検証します。すべてのデータセットの実験結果は、当社の IMRAM が一貫して比較方法を上回り、最先端のパフォーマンスを達成することを示しています。

推奨読書:
CVPR2020 クロスモーダル検索 - IMRAM
IMRAM: クロスモーダル画像テキスト検索のための反復マッチングと再帰的注意メカニズム

おすすめ

転載: blog.csdn.net/zag666/article/details/129285756