クロスモーダル検索の論文の読み方: クエリバンク正規化によるクロスモーダル検索

QueryBank正規化によるクロスモーダル検索 QueryBank正規化に基づくクロスモーダル検索

概要

大規模なトレーニング データセット、ニューラル アーキテクチャ設計の進歩、効率的な推論を活用するジョイント埋め込みは、クロスモーダル検索を解決するための主流のアプローチになりました。この論文は、その有効性にもかかわらず、最先端の共同埋め込みは、少数のギャラリー埋め込みが多くのクエリの最近傍を形成するという長年の「ハブネス問題」に深刻に悩まされていることを示しています。NLP の文献から着想を得たこのホワイト ペーパーでは、Querybank 正規化 (QB-NORM) と呼ばれるシンプルで効果的なフレームワークを提案し、クエリの類似性を再正規化して、埋め込み空間内のハブを検討します。以前の作業とは異なり、QB-NORM がテスト セット クエリへの同時アクセスなしで効率的に機能することを示します。QB-NORM フレームワーク内で、既存の方法よりもはるかに強力な新しい類似性正規化方法である Dynamic Inversion Softmax も提案します。一連のクロスモーダル検索モデルとベンチマークで QB-NORM を実証し、一貫して強力なベースラインを強化し、最先端を凌駕します。

1 はじめに

ここに画像の説明を挿入
図 1: 左: 中央の質問。クエリ q1 と q2 がサンプル リポジトリ x1 と x2 と比較されるクロスモーダル検索の問題を考えます。クロスモーダル検索の最新の方法で採用されている高次元のジョイント埋め込みには、「ハブ問題」があります。中心 (x2 など) は、複数のクエリ (q1 と q2) の最近傍であり、低品質の検索結果が得られます (左下)。
右: クエリバンクの正規化 クエリバンクを使用して類似度を正規化すると、クエリ q1 に対する中心 x2 の類似度が減少し、検索結果が向上します (右下)。

支配的なクロスモーダル埋め込みパラダイムは、ディープ ニューラル ネットワークを使用して、モダリティ固有のサンプルを高次元の実数値ベクトル空間に投影し、適切な距離メトリックと直接比較できます。このアプローチの重要な課題は、この高次元空間の固有の「ハブ」、つまり、他の多くの埋め込みベクトルの最近傍のセットに現れる埋め込みベクトルです。

ハブネスは、さまざまな主要な検索方法で一般的です。ハブを放置すると、検索システムによって生成される検索ランキングが大幅に低下する可能性があります。この作業の貢献は、クエリバンク正規化 (QB-NORM、図 1 右) と呼ばれる統一された概念フレームワークでこれらのメソッドをどのように解釈できるかを示すことです。これは、推論中にサンプルの質問バンクを使用して、バンク内のハブの数を減らします。影響。既存のアプローチには 2 つの課題があります: (1) これまでのところ、これらのアプローチは、複数のテスト クエリへの同時アクセスに適していることが証明されているだけであり、実際の検索システムでは非現実的な仮定です; (2) ) の選択に敏感です。一部のクエリ ライブラリのパフォーマンスを積極的に低下させます (表 2)。最初の課題に対処するために、慎重な実験 (表 1) を通じて、QBNORM がテスト クエリへの同時アクセスを有効にする必要がないことを示します。2 番目の課題に対処するために、QB-NORM フレームワークのモジュールとして動作する新しい正規化方法、Dynamic Inverse Softmax (DIS) を提案しますDIS が以前の方法よりも堅牢な効率的な正規化を提供することを示します。

この記事は次のことに貢献します。

1. 提案された Querybank Normalization (QB-NORM) は、モデルの微調整を必要とせずに検索パフォーマンスを大幅に改善するシンプルなノンパラメトリック フレームワークです; 2. 初めて (私たちが知る限り) 証明します
現在のクエリ以外のテストクエリが得られない場合、クエリバンク正規化手法はクロスモーダル検索に対して有効性を維持すること 3. クエリバンク正規化手法である動的リバースソフトマックスを提案 新しい正規
手法以前の文献よりも堅牢です;
4. QB-NORM は、幅広いタスク、モデル、およびベンチマークで非常に効果的です。

2. 関連作品


クロスモーダル検索におけるハブの問題
これは、クロスモーダル検索システムでは、複数のモダリティで類似性の高いデータ サンプル (「ハブ」と呼ばれる) が存在し、検索精度に影響を与えることを意味します。具体的には、ハブが複数のモダリティに同時に出現すると、複数のモダリティ間のブリッジとなり、クロスモーダル検索の類似度計算で他のサンプルに影響を与えます。

クロスモーダル検索でハブの問題を解決するには、通常、次のようなさまざまな戦略が必要です:
クラスターベースの方法: データサンプルをクラスター化することにより、ハブを異なるクラスターにグループ化し、異なるモダリティ間の関係への影響を軽減します.類似度計算。
次元削減に基づく方法: データ サンプルの次元を削減することにより、データの次元が削減されるため、クロスモーダル検索システムがより堅牢になり、ハブの影響が減少します。
正則化ベースの方法: クロスモーダル検索システムの目的関数を正則化することにより、ハブの重みが制約され、類似度計算への影響が軽減されます。
重要度の重みに基づく方法: 各データ サンプルに重要度の重みを割り当て、ハブの重みを調整することでクロスモーダル検索システムへの影響を軽減します。
結論として、クロスモーダル検索でハブの問題を解決することは複雑な問題であり、複数の要因と複数のアプローチを包括的に考慮する必要があります。


ハブネスの緩和
1 つのパラダイムは、ローカルおよびグローバル スケーリング スキームによって達成できるプロセスである再スケーリング (最近隣関係の非対称性を説明するために類似空間を使用する) に焦点を当てています。

3. 方法

QB-NORM は、クロスモーダル検索のためのクロスドメイン正規化メソッドです。クロスモーダル検索では、異なるモダリティのデータは異なる統計的特性を持つため、クロスモーダル検索の類似度計算を容易にするために、同じ統計的特性を持つように正規化する必要があります。QB-NORM アプローチは、異なるモダリティのデータを同じ分布にマッピングするマッピング関数を学習することにより、クロスドメインの正規化を実現します。

QB-NORM 法の具体的な手順は次のとおりです。m
個のモーダル データがあると仮定し、各モーダルのデータを平均値が 0、分散が 1 になるように標準化します。
正規化されたデータを列ごとに結合して、大きな行列 X にします。
X に対して主成分分析 (PCA) を実行して、X を k 次元 (k<<m) に縮小します。
PCA によって得られた上位 k 主成分は、クロスモーダル検索における類似度計算の新しい特徴表現として使用されます。
各モダリティのデータに対して線形マッピングが実行され、PCA の上位 k 主成分に対応する特徴表現が取得されます。
各モダリティのデータの特徴表現は、最終的なクロスドメイン正規化特徴表現を取得するために、線形マッピングと主成分特徴表現によって重ね合わされます。

QB-NORM メソッドは、異なるモダリティ間の分散を効果的に削減し、クロスモーダル検索の精度を向上させることができます。同時に、QB-NORM 法は、計算が簡単で実装が容易であるという利点があり、実際のアプリケーションで広く使用されています。

結論は

このホワイト ペーパーでは、ピボット軽減のためのクエリバンク正規化フレームワークを紹介し、ロバストな類似正規化のための動的反転 Softmax を提案します。これは、さまざまなタスク、モデル、およびベンチマークにわたって幅広い適用性を示しています。

おすすめ

転載: blog.csdn.net/zag666/article/details/129811622