クロスモーダル検索の論文読解: 画像とテキストのマッチングに対する離散連続アクション スペース ポリシーの勾配ベースの注意

離散連続アクション スペース ポリシー画像とテキストのマッチングのための勾配ベースの注意画像と
テキスト マッチングのための勾配ベースの注意ベースの離散連続アクション スペース ポリシー

既存のクロスモーダル画像およびテキスト検索方法は、異なるモダリティを共通の空間に明示的に変換しません。同時に、画像テキストマッチングモデルで広く使用されているアテンションメカニズムには監視機能がありません。我々は、画像とテキストの埋め込みを共通空間に投影し、評価指標に直接基づいてアテンションの重みを最適化する新しいアテンションスキームを提案します。提案されたアテンション スキームは、追加の注釈なしの一種の教師付きアテンションとみなすことができます。これは、以前の連続アクション スペース ポリシー勾配アルゴリズムよりも複雑なアクション スペースのシミュレーションにおいてより効率的な、新しい離散連続アクション スペース ポリシー勾配アルゴリズムを使用してトレーニングされています。広く使用されている 2 つのベンチマーク データセットである Flickr30k と MS-COCO で提案された手法を評価したところ、これらの手法が以前の手法よりもはるかに優れていることが結果からわかりました。

導入

メトリック学習は、ドメインの違いに関係なくサンプル間の類似性を測定して処理しようとするため、視覚的なセマンティック埋め込みにおいて非常に強力です。ただし、あるモダリティから別のモダリティへの明示的な変換を考慮して設計されていないため、最適なパフォーマンスが得られないことがよくあります。インスタンス損失(Instance Loss)を適用する方法、つまり画像とテキストのカテゴリを分類する方法はいくつかありますが、カテゴリドメインでのインスタンス損失の最適化により、画像とテキストのマッチングメトリック学習損失を伴うマルチタスク学習方法を形成します。 、明示的な変換は行われないため、パフォーマンスの向上は限られています。画像には多くのきめの細かいオブジェクトが含まれることがよくあります。ResNet などの一般的なディープ CNN モデルからのフラット ベクトル表現では、これらのオブジェクトとその関係を発見するには不十分です。したがって、高度な方法では、事前にトレーニングされた物体検出器からの画像特徴を使用し、これらの特徴に視覚的注意メカニズムを適用して、重要な特徴と無関係な特徴を区別します。注意メカニズムは、さまざまなコンピュータ ビジョン タスクにおいて重要な役割を果たします。これらのモデルでは、注意メカニズムは隠れたニューロンとして扱われますが、直接の監視がないため、多くの場合、誤った画像特徴選択につながります。

画像-テキストマッチングにおける注意メカニズムを明示的に変換および監視するために,本論文では,画像-テキストマッチングにおける視覚およびテキスト特徴の注意調整のためのポリシー勾配(PG)最適化手法を提案した。私たちのアプローチでは、注意の重みは深層学習モデルの前ではなく、マッチングに使用される最後の画像とテキストのベクトルでベクトル変換を実行するため、注意の重みは特定のモダリティから共通の空間への変換とみなすことができます。 . 複数のレイヤーの中から重要なフィーチャを選択します。アテンションの重みは、バッチ ランキング メトリックとインスタンス平均精度 (AP) を報酬関数として使用し、PG メソッドによってトレーニングされます。これらのアテンションの重みは、PG アルゴリズムによって直接最適化され、最高のランキング結果とより高い AP インジケーターが得られます。これは監視された注意メカニズムとみなすことができ、この監視には追加の注釈は必要ありません。このPGベースのアテンションメカニズムはシンプルかつ明確であり、評価指標を最適化できます。これは、単なる通常のニューロンである従来のソフト アテンションよりも正確です。
ここに画像の説明を挿入します
図 1: 動機: 注意の重みは、各モダリティから共通空間への投影です。既存の連続 PG は単純な正規分布を仮定しています。代わりに、最初に平均を離散アクションとして扱い、次に複数の正規分布を使用して複合分布を形成します。これはより現実的です。

より具体的には、図 1 に示すように、注目重みの生成を PG におけるアクション選択プロセスとみなします。その空間は柔軟に事前設定できます。従来の PG のアクション空間は離散的であり、アテンション メカニズムのような機能調整には適していません。1 つの解決策は、アクション空間をガウス分布として扱い、この分布からアクション値をサンプリングする連続アクション空間 PG アルゴリズムを適用することです。アクションの分布を正規分布に制限することは最適ではなく、この仮定には理論的および実践的な裏付けがありません。実際には、アクション空間の分布は非常に複雑になる可能性があり、単純な正規分布では説明できません。したがって、アクションは連続的であり、異なる平均 (μ) と標準偏差 (σ) を持つ複数の正規分布からサンプルを抽出すると考えます。まず、μ を事前定義されたアクション空間からサンプリングされた離散アクションとして扱いますが、σ は連続的であるためニューラル モデルから取得されます。私たちは、μ と σ を利用して正規分布を形成し、この分布から連続アクションのサンプルを抽出し、それらを注意の重みとして使用して、視覚的埋め込みとテキスト埋め込みの特徴表現を調整したいと考えています。一般に、従来の PG では、勾配を対数確率に逆伝播するだけでよいため、μ をトレーニング可能にする必要はありません。対照的に、この場合、結果の正規分布は、正規分布を学習可能にするためにμを逆伝播する必要があります。μ の取得にはサンプリングが含まれるため、現在の形式でトレーニングすることはできません。μ を微分可能にするために、貪欲サンプリングや ∈ 貪欲サンプリングを直接使用しません。Gumbel-softmax を使用して離散性を緩和し、サンプリングされた μ を正規分布でトレーニング可能にします。私たちはこのアプローチを「離散-連続 PG」と呼んでいます。これは、離散アクション スペースと連続アクション スペースの両方が含まれ、両方のメリットが得られるためです。実際、離散アクション空間と連続アクション空間を使用することにより、注意の重みをサンプリングするために使用されるアクション空間は、複雑度の高い分布をシミュレートできる複合分布になります。

貢献する

画像とテキストのマッチング タスクでアルゴリズムとモデルを評価し、広く使用されている 2 つのベンチマーク データセットで最先端のパフォーマンスを達成しました。要約すると、私たちの貢献は 3 つあります。
(1) 画像とテキストのマッチング タスクのためのポリシー勾配に基づく新しい注意監視スキームを提案します。
(2) 離散および連続の行動空間を用いた新しい離散-連続政策勾配アルゴリズムを提案する。
(3) 得られた高度な結果は、注意監視スキームと新しいポリシー勾配アルゴリズムの有効性を検証します。

関連作業

画像とテキストのマッチング

Frome et al. [6] は、CNN と Skip-Gram によるクロスモーダルマッチングのための特徴埋め込み方法を提案しました。彼らはまた、類似ペア間の距離を測定するためにランキング損失を利用しました。「VSE++: ハード ネガによるビジュアル セマンティック エンベディングの改善。BMVC、2018」の研究では、トリプル ロスでのハード ネガ マイニングに焦点を当てており、結果は改善されています。Zheng et al. [37] は、多数のカテゴリにわたってインスタンスの損失を使用しました。彼らは、インスタンスの損失が画像とテキストのマッチングに役立つことを発見しました。Gu ら [8] は、生成モデルを研究することでクロスモーダル問題を改善しました。Li et al. [19] は、グラフ ニューラル ネットワークと画像キャプション損失を使用した視覚的意味論的推論フレームワークを提案しました。この視覚的意味論的推論モデルは、画像の特徴の意味的関係について推論することができ、優れたパフォーマンスを発揮します。

注意メカニズム

視覚的注意メカニズム [35] は、さまざまなコンピュータ ビジョン アプリケーションで広く使用されています。そのうち、ボトムアップ アテンション モデル「Bottom-up and top-down attention for image captioning and Visual question Answer. In CVPR, 2018.」が、画像キャプション、ビジュアル クエスチョン アンサー、画像とテキストのマッチングの現在の主流となっています。しかし、教師あり注意に関する研究はあまり多くありません。Gan ら [7] は、アテンション アノテーションを使用した視覚的な質問応答のための教師ありアテンション スキームを提案しました。Kamigaito et al. [13] も、自然言語処理タスクにおける注意を監視するために注意アノテーションを使用しました。代わりに、アテンション モジュールが特定の目標 (AP など) に向かって直接最適化できるようにする、強化学習ベースの教師ありアテンション メカニズムを提案します。さらに、私たちが提案するアテンションモジュールは追加の注釈を必要としません。

継続的なアクションスペースポリシーの勾配

連続制御問題の研究には長い歴史があります。たとえば、Lillicrap et al. [20] は、連続的なアクション空間を考慮することにより、深い決定論的な政策勾配を提案しました。これまでの研究では、離散的なアクション空間と連続的なアクション空間の関係が利用されてきました。たとえば、Dulacc-Arnold et al. [3] は、基礎となる連続アクション空間の連続性を利用して、離散アクションに一般化しています。Pazis et al. [27] は、バイナリ離散動作空間を使用して、連続制御問題を離散制御問題に変換しました。Tangらによる研究[31]は、連続制御のアクション空間を離散化することがシンプルで強力な戦略最適化手法であることを示しています。また、政策を最適化するために、離散的アクション空間と連続的アクション空間を組み合わせることも検討します。合成分布が厳密に想定された正規分布よりも優れていることを示します。

提案手法

私たちの目標は、生成されたビジュアルおよびテキストの特徴を調整して、画像とテキストのマッチングを容易にすることです。まず、グラフ畳み込みニューラル ネットワーク [34] を、画像キャプションと視覚的な質問応答のためのボトムアップおよびトップダウンの注意に適用します。CVPR, 2018. 視覚的意味論と一致する画像の特徴。推論ネットワーク (VSRN) 「画像とテキストのマッチングのための視覚的意味論的推論。ICCV、2019 年。」も同様です。視覚的特徴を取得した後、離散連続アクション空間 PG を使用して、視覚的特徴を調整するための注意の重みを生成します。同様に、テキストの特徴も、離散連続 PG に基づくアテンション メカニズムを通じて調整されます。取得された画像とテキストの埋め込みは、トリプレット損失、インスタンス損失、テキスト復号損失などのマルチタスク損失を使用してトレーニングされます。この方法の概略図を図 2 に示します。

画像とテキストの特徴抽出

GCN は画像領域の特徴の推論に使用されます。当社が採用する GCN モデルは、VSRN 手法に似ています。具体的には、画像領域の特徴間の意味論的な関係は、ペアごとの類似性によって測定されます。
ここに画像の説明を挿入します

このうち、Fi と Fj は、Faster R-CNN 検出器を通じて取得された 2 つのボトムアップ画像領域特徴です。ei と Ej は埋め込み関数であり、通常は行列の乗算であり、バックプロパゲーションを通じて学習できます。次に、全結合関係グラフ G r = (V, E) を構築します。V は検出された画像領域の特徴セット、E はエッジ セットです。式 1 に示すように、各エッジは関係行列 Relation(Fi , F j ) によって記述さますGCN を適用して、この全結合グラフに対して推論を実行します。GCN 推論の出力は、Image = {I 1 , …, I t , …, I T } として表されます。
テキスト埋め込み: w で表されるワンホット テキスト表現が与えられると、線形単語埋め込み層が構築され、We = {w1 e, …, wi e, …, wN e} として表される単語表現が取得されます。ここで、wi e=単語埋め込み(wi)。

提案された離散連続アクション空間 PG

PG は通常、次の 2 つの理由で離散アクション空間を使用します。1 つは多くの制御問題が離散アクション空間でモデル化されること、もう 1 つは複雑なアクション分布をシミュレートできるためパフォーマンスが高いことです。ただし、連続アクション空間制御の問題が発生した場合は、対応する PG アルゴリズムを開発する必要があります。ただし、前述したように、連続アクション空間 PG では通常、アクションが正規分布に従うと想定されており、これでは厳しすぎます。実際の分布をより適切にシミュレートする、複合分布から連続アクションをサンプリングする方法を提案します。

離散アクションのサンプリング: 図 2 に示すように、最初に注意の重み生成プロセスを有限マルコフ決定プロセス (MDP) としてモデル化し、次にマルチフォーク サンプリング手法を使用して離散アクションをサンプリングします。n 個のアクション カテゴリ (つまり A = {a1, a2,…,an}) を定義し、状態空間には入力領域の特徴とこれまでに生成された注意の重み (つまり st = {I0, Att0…, It-1, Att) が含まれています。 -1}。ポリシーは GRU モデルを通じてパラメータ化され、環境とサンプルアクションを調査します。より正式には:
ここに画像の説明を挿入します
ここで、 GCN 推論後の t 番目の画像特徴です。GRUmdp は、注意の重み生成問題を MDP としてモデル化するためのゲート反復ユニット (GRU) です。W t μ∈ Rs×n は、学習する必要がある重みです。S は特徴ベクトルのサイズです。Atg はガンベルソフト tmax 発動後の各アクションの確率です。
ここに画像の説明を挿入します
このうち、W std ∈ R s×1が学習が必要な重みです。
ここに画像の説明を挿入します

図 2: 提案手法の概略図: 画像とテキストがモデルに転送されます。抽出された画像の特徴は、まず GCN モデルを通じて処理され、意味的な関係が推論されます。次に、地域的特徴が提案された離散連続 PG アルゴリズムに入力されてアテンション マップが生成され、その後このマップが適用されて地域的特徴が調整および融合されます。同様に、テキストの埋め込みも、離散連続 PG アルゴリズムによって生成されたアテンション マップを介して調整されます。最終的な画像とテキストの埋め込みは、トレーニングのためにメトリック学習損失、離散 PG 損失、および連続 PG 損失と連結されます。

連続アクション サンプリング: サンプリングされた μ と σ は、次のように正規分布を形成します。
ここに画像の説明を挿入します
ここで、Att tは、この正規分布からサンプリングされた注意の重みです。この正規分布の対数確率は次のように表されます。
ここに画像の説明を挿入します
離散 PG 最適化: 簡素化と効率化のために、PG をオンライン学習方法、具体的には REINFORCE アルゴリズムとして定式化します。離散アクション空間の PG は長期報酬を最大化することであり、式は次のようになります。
ここに画像の説明を挿入します
モンテカルロ 1 回サンプリングを使用して累積報酬を推定します。つまり、ここに画像の説明を挿入しますR は報酬であり、次のようになります。後で定義します。さらに、log π θ (a t | s t ) = logprob t aであり、式 2 で求められます。したがって、式 6 は次の PG 損失関数を導き出します。
ここに画像の説明を挿入します
ここで、B は各ミニバッチのサイズです。右側のマイナス記号は、損失を最小限に抑え、それによって R を最大化することを示していることに注意してください。

連続 PG 最適化: 式 5 は、正規分布の対数確率の直接的な定義を提供します。同様に、連続アクション空間の PG 損失は次のとおりです。
ここに画像の説明を挿入します
報酬関数の式: 報酬信号は、PG 法の本来の目的である注意生成プロセスを導くことができるため、非常に重要です。報酬シグナルは、R@K と平均精度 (AP) を使用した画像とテキストの埋め込みのオンライン評価から得られます。具体的には、各サンプルをカテゴリーとして扱い、サンプルのバッチでその R@1 と AP をオンラインで計算します。したがって、後続の信号は R@1 と AP の結果の線形結合として表すことができます:
ここに画像の説明を挿入します
次に、この報酬を使用して、提案された PG アルゴリズムをガイドし、画像とテキストのマッチング タスクで画像とテキストの特徴を自動的に調整するための注意の重みを生成します。より効果的な埋め込み。分散をさらに削減し、PG トレーニングをより安定させるために、インスタンスのバッチ内の他のすべてのインスタンスの平均報酬である PG ベースラインをさらに適用します。ここで、K はバッチ サイズ、b
ここに画像の説明を挿入します
kk-番目のインスタンスのベースライン、R jは j 番目のインスタンスの報酬です。ベースラインでは係数 β = 0.5 を使用しますが、これは経験則としてより適切です。

機能の融合

生成されたアテンション ウェイトは、画像の埋め込みを調整するために使用できます。画像領域の特徴は Image={I 1 ,…,I t ,…, IT }、生成された注意の重みは ATT={Att 1 ,…,Att t ,…,Att T } であることを思い出してください。 element を乗算して、画像領域の特徴と注意の重みを調整します。
ここに画像の説明を挿入します
ここで、I A は調整された画像領域の特徴を表します。GRU I gr は、調整された画像の特徴に関するグローバルな推論に使用されます。融合された特徴は、GRU grと調整された画像領域特徴の出力の合計ですIEは画像埋め込みです。

同様に、テキスト埋め込みの生成にも同じアプローチを適用します。提案された離散連続 PG をテキスト埋め込みWeに直接適用することに注意してください。

次に、テキスト埋め込みによって生成される特徴調整および融合プロセスは次のように表すことができます。
ここに画像の説明を挿入します
ここで、TA調整されたテキスト特徴、ATT Tはテキスト埋め込みに対して生成された注意の重みです。T Eはテキストの埋め込みです。

損失関数

画像とテキストのマッチング タスクを達成するために、クロスモーダル トリプレット損失、インスタンス損失、テキスト復号化損失、および提案された PG 損失を適用してモデルをトレーニングします。モデルの最終的な損失目的関数は次のように説明されます。
ここに画像の説明を挿入します
このうち、損失トリプレットはヒンジベースのトリプル ランキング損失です。損失xe はクロスエントロピー分類損失であり、各インスタンスをクラスとして扱います。Loss I tdと Loss T tdは、それぞれ画像からテキストへの復号化損失とテキストからテキストへの復号化損失です。画像またはテキストの埋め込みをデコードして文を作成します。テキスト デコード モジュールの重みは画像ブランチとテキスト ブランチ間で共有されることに注意してください。
三重損失は次のように表されます。
ここに画像の説明を挿入します
ここで、α は限界ハイパーパラメータです。[x] + =max(x,0)。S(・) は類似度関数であり、^I と ^T は正のペア (I, T) の最も困難な負の値です。

テキスト デコード損失の場合、畳み込み画像キャプション モデル「Convolutional image captioning. In CVPR, 2018.」を画像およびテキスト デコード モジュールのデコーダーとして使用します。これと同じ損失関数を使用します。これは、テキストのデコードを並行してトレーニングする機能があり、RNN ベースの損失関数よりも効率的です。

実験

提案した離散連続 PG アルゴリズムの有効性を評価するために、先行研究に続き、画像を使用した文検索と文を使用した画像検索の 2 つの実験を実施しました。

データセットとプロトコル

Flickr30K および Microsoft-COCO データセットに対するメソッドのパフォーマンスを評価します。標準的なトレーニング、検証、およびテストのそれぞれ 28,000 個の画像、1,000 個の画像、および 1,000 個の画像の分割を使用します。MS-COCO データセットには、トレーニング用の 113,287 枚の画像、検証用の 5,000 枚の画像、およびテスト用の 5,000 枚の画像が含まれています。各画像には 5 つのキャプションが付いています。私たちが使用する評価プロトコルは、K を超える再現率 (R@K) です。これは、各クエリに最も近い K 個のサンプルの中から正しい項目を取得するクエリの割合として定義されます。

実装の詳細

PyTorch に基づいてモデルを構築します。「画像とテキストのマッチングのための視覚的意味論的推論。ICCV、2019 年。」によって提供される、事前にトレーニングされたボトムアップ アテンション画像特徴を使用します。単語の埋め込みサイズは 300、画像とテキストの埋め込みサイズは 2048 です。このモデルで使用されている GRU モジュールの隠れたサイズは 2048 です。100 個の離散アクション カテゴリ、つまり {0, 1, 2, …, ai, … 100} を事前定義しました。ここで、ai は特徴を増幅するアクションに対応し、その値は ai/λ で、λ はハイパーパラメータです。アクション カテゴリの数は主に経験に基づいて選択されることに注意してください。100 を選択したのは、これが画像領域の最大数に近く、また文の最大単語数にも近く、画像領域の各項目と文の違いを説明するには十分であるためです。詳細な説明については、式 11 および 12 を参照してください。トレーニング中に、Adam オプティマイザーを使用して、合計 30 エポックにわたって 128 のミニバッチ サイズでモデルをトレーニングします。学習率 4e-4 で 15 エポックのトレーニングを開始し、学習率を 4e-5 に下げてさらに 15 エポックのトレーニングを行います。早期停止手法を採用して、検証セット内で最高のパフォーマンスを発揮するモデルを選択します。クロスモーダル トリプル ランキング損失の場合、限界値はすべての実験で 0.2 に設定されます。分類損失については、Flickr30K データセットには 29,783 のカテゴリがあり、MS-COCO データセットには 113,287 のカテゴリがあります。すべての実験は、 Nvidia Geforce 2080-TI GPUグラフィックス カードと Windows 10 オペレーティング システムを搭載したサーバーで実施しました。

最先端の手法との比較

Flickr30k の結果: 表 1 は、Flickr30k データセットの結果と現在の最先端の手法との比較を示しています。また、AlexNet、VGG、ResNet、Faster R-CNN などの各最先端の手法で使用されるバックボーン ネットワークも示します。提案された方法は他の方法よりも大幅に優れています。SCAN と VSRN は、私たちの方法に近い 2 つの方法です。VSRN と私たちの方法は両方とも同じクロスモーダル トリプル損失とテキスト復号損失を使用するため、私たちの方法は主に提案されている PG ベースの教師付き特徴アテンション メカニズムにおいてそれらとは異なります。したがって、主なパフォーマンスの向上は、提案された離散連続 PG アルゴリズムによってもたらされ、VSRN モデルに似た既存のベースライン モデルを効果的に改善します。具体的には、字幕検索に画像を使用する場合は 82.8% の R@1 を達成し、画像検索に字幕を使用する場合は 62.2% の R@1 を達成します。
ここに画像の説明を挿入します
表 1: Flickr30k データセットの画像とテキストの一致比較

MS-COCO に関する結果: 表 2 と表 3 は、それぞれ 1K および 5K MS-COCO データセットに関する実験結果と、最先端のモデルとの比較を示しています。1K テスト プロトコルの場合、結果は 1K テスト画像の 5 倍の平均です。現在の最良の方法である SCAN および VSRN と比較する場合、同じ戦略を採用して、2 つのモデルの予測類似性スコアを平均することによって、トレーニングされた 2 つの提案モデルの結果をマージします。表 2 に示すように、提案したモデルは、画像を使用したタイトル検索では 84.0% の R1 を達成し、タイトルを使用した画像検索では 63.9% の R1 を達成しました。結果は、VSRN や SCAN よりも大幅に優れています。5K テスト プロトコルの場合、5K テスト サンプル全体を使用して、提案されたモデルを評価します。表3から明らかなように、我々の方法は新たな最先端レベルに達し、画像を使用したタイトル検索とタイトルを使用した画像検索でそれぞれ68.7%のR@1と46.2%のR@1を達成した。
ここに画像の説明を挿入します
表 2: 1K テスト セット MSCOCO データ セットでの画像とテキストのマッチングの比較
ここに画像の説明を挿入します
表 3: 5K テスト セット MSCOCO データ セットでの画像とテキストのマッチングの比較

アブレーション研究

ベースライン: 提案されたモデルの各コンポーネントについてアブレーション スタディを実行しました。結果を表 4 に示します。最初に 3 倍の損失のみを使用してモデルを評価しましたが、結果は比較的悪いものでした。モデルにインスタンス損失を追加すると、ランキング結果の改善は限定的になります。同様に、テキスト デコード損失もモデルのパフォーマンスを向上させます。これは、異なるモダリティ間のドメイン ギャップを埋めるのに役立つことが証明されています。私たちのベースライン モデルには、3 つの損失関数がすべて組み込まれています。

離散-連続PG法の影響:ベースラインモデルに基づいて、提案された離散-連続アクション空間ポリシー勾配アルゴリズムの優位性を検証するために、まず従来の離散アクション空間ポリシー勾配スキームと比較しました。離散 PG スキームを実装するために、連続アクション空間サンプリングをキャンセルし、離散アクションをアテンション ウェイトとして直接使用します。提案された方法は、離散 PG スキームよりも優れた結果を生成します。第 2 に、ガウスベースの連続アクション空間 PG スキームのみを適用します。私たちが形成した複雑な分布はアクション空間の実際の分布をより適切に記述することができるため、私たちのスキームの結果も単一のガウス PG の結果よりも優れています。その結果を表 4 に示します。
ここに画像の説明を挿入します
表 4: Fickr30k データセットに関するアブレーション研究

さまざまな報酬関数の影響: 次に、報酬関数に関するアブレーション スタディを実行しました。その結果、報酬としてインスタンス AP と組み合わせたバッチ R@1 を使用すると、最高のパフォーマンスが得られることがわかりました。AP 評価はより包括的であり、インスタンス報酬はバッチ報酬よりも正確であるため、AP 単独の方が R@1 報酬よりも優れていることに注意してください。分散をさらに削減し、PG トレーニングをより安定させるために、PG ベースラインを追加で適用します。次に、PG ベースラインの影響を評価します。PG ベースラインはトレーニングを安定させ、このオンライン PG メソッドの分散を減らすことができるため、パフォーマンスがわずかに向上します。提案された方法を評価すると、アブレーション研究のパフォーマンスが大幅に向上し、画像とタイトルの検索の R@1 メトリクスが 5% 以上改善されました。λ 値は注意の重みのサイズを制御します。これは非常に重要です。削減研究では、私たちの方法は異なる λ で優れた結果を達成しますが、適切な λ (20) の値が良好なパフォーマンスを維持するために重要であることが示されています。

マルチヘッド機構適用の影響:マルチヘッド機構はトランスフォーマーなどの有名モデルに広く採用されており、追加の改良が加えられることも多いです。提案された PG アルゴリズムに対するマルチヘッド メカニズムのプラスの影響を検証しました。具体的には、潜在的な離散μおよびσ値に対してヘッド数 2 の長い機構を採用します。経験的な結果は、マルチヘッド機構が本質的にサンプリング潜在分布のさまざまな側面を反映できるため、パフォーマンスが向上することを示しています。

事前トレーニングされた GloVe 単語埋め込みの使用の影響: バニラ VSRN ベースラインでは、単語埋め込みモジュールはトレーニング可能です。表に示すように、事前トレーニングされた GloVe 単語埋め込みモジュールの影響を調査します。事前トレーニングされた GloVe 単語埋め込みを適用すると、事前情報が埋め込まれるため、マッチングのパフォーマンスがわずかに向上します。

視覚化

画像とテキストの検索結果とアテンションマップを図3と図4に視覚化します。この図から、アテンション マップは期待される画像領域をキャプチャできる一方、言語アテンション マップは重要なセマンティクスを反映できることが明らかです。この図には、同様の意味内容または同様の視覚的レイアウトを持ついくつかのエラーの例も示されています。図 5 は、トレーニング損失曲線と報酬関数曲線の視覚化を示しています。トレーニングが進むにつれて、トリプレット損失、インスタンス損失、およびテキスト復号化損失はすべて減少します。報酬値は増加し続けるため、提案された離散連続 PG 手法が検証されます。
ここに画像の説明を挿入します
図 3: タイトル検索結果とアテンションメカニズムの視覚化。検索結果の上位 3 つを選択します
ここに画像の説明を挿入します

ここに画像の説明を挿入します
曲線は図のようになります。

結論は

この論文では、画像とテキストの埋め込みを共通空間に変換し、それらを最適化してより高い AP を達成するための、新しいポリシー勾配ベースのアテンション メカニズムを提案します。注意重みサンプリングで複雑なアクション空間をモデル化するために、複合アクション空間分布を使用した離散連続アクション空間ポリシー勾配アルゴリズムを提案します。広く使用されている 2 つのベンチマーク データセットに対する包括的な実験により、提案された手法の有効性が検証され、最先端のパフォーマンスが達成されます。

おすすめ

転載: blog.csdn.net/zag666/article/details/129192287