NeurIPS 2023 | コントラスト損失の詳細な分析!サムスン研究所が新しい連続性コントラスト損失CMCLを提案

46a52771674947d2bd26544f93c10377.png

論文名: CWCL: Cross-Modal Transfer with Continuously Weighted Contrastive Loss 論文リンク: https://arxiv.org/abs/2309.14580

大規模に事前トレーニングされた一部のクロスモーダル表現アライメント モデル (CLIP や LiT など) は、多くの場合、非常に強力なクロスドメイン ゼロショット機能を実証できます。これは、一般的な人工知能への重要なステップです。 。 ステップ。 現在、より一般的に使用されている技術的手法は、標準的なアライメント トレーニング損失を使用して、大規模な陽性サンプルと陰性サンプルのペアから異なるモダリティ間の意味論的な相互作用をマイニングすることです。< a i=2 >。ただし、この方法には明らかな欠陥もあります。つまり、トレーニング セットには、より連続的な類似性を持つ一定数のサンプルが存在します。したがって、単純に次のことを行うのは現実的ではありません。最適化のためにバイナリ コントラスト損失を使用します。包括的

この記事では、人工知能のトップカンファレンスである NeurIPS 2023 で発表された記事を紹介します。この記事の著者チームは Samsung Research Institute の出身です。この記事では、オリジナルの標準比較損失. 新しいタイプの連続重み付け対比損失 (CWCL) が開発されました. CWCL は、連続類似性測定を使用して、連続空間で 2 つの異なるモダリティを組み合わせます. アライメント用の埋め込み空間.多数の実験を通じて、著者は、関数の連続的な性質に基づいて、CWCL が画像とテキストのモーダルペア間のパフォーマンス向上 (5 ~ 8% 向上) を達成できるだけでなく、音声間のパフォーマンス向上も達成できることを発見しました。テキスト モーダル ペア。状態ペアも優れたパフォーマンスを示しました (20 ~ 30% の向上)

01. はじめに

現在、CLIP[1] や LiT[2] など、ビジュアル イメージおよびテキスト モダリティ用の非常に強力な事前トレーニング モデルがいくつかあります。しかし、他のモダリティにはまだそのようなモデルがありません。たとえば、音声と音声の分野では、視覚言語モデルをゼロショット形式で新しいタスクに一般化できる伝達パラダイムとは異なり、音声モデルとオーディオ モデルには、タスク固有のデータを使用した微調整トレーニングが必要です。さらに、音声分野でのデータセットの収集とラベル付けには、品質管理の実行方法やノイズの除去方法など、特定の困難があります。さらに、画像事前トレーニング モダリティであっても、医療画像分野など、自然画像を直接使用してモデルを事前トレーニングすることにも問題がある、困難なサブモダリティが存在します。

12b5f2cc1eaa44c6b8cc266a97d65baa.png

したがって、この記事では主に、大規模な事前トレーニング済みモデルから他のモダリティに知識をより適切に転送する方法に焦点を当てます。一般的な方法は、標準のコントラスト損失を使用してペアのデータセットから教師あり学習を実行することですが、教師ありモードにはさまざまな程度の類似性を持つ類似したサンプルが多数存在する可能性があります。この非効率な転送の制限を軽減するために、この論文では、マルチモーダル モデルのコントラスト トレーニング用に連続的に重み付けされたコントラスト損失 CWCL を提案します。著者は、画像テキストと音声テキストの 2 つのモーダル ペアを使用して調査を実施しました。上の図は、CWCL と LiT の位置合わせパフォーマンスの比較を示しています。2 つのモーダルでは、次のことがわかります。ペア、CWCL はすべて、特に音声テキスト モードで優れたゼロショット機能を示します。

ddc795232cbe4f12bc53fba47ed86724.png

また、以下の図は、CWCL を使用した位置合わせ後の 2 つのモダリティ間の類似性マトリックスを示しています (図からわかるように、対角領域の類似性がより顕著です)。 < a i= 1> 転送トレーニング中にラベルが提供されない場合でも、CWCL は通常の損失関数よりも優れたモーダル アライメントを実現します

02. この記事の方法

2.1 既存の比較トレーニングフレームワークと損失関数

2.2 CWCL 損失関数の定義

2.3 モーダル内類似性の重みを取得するにはどうすればよいですか?

03. 実験結果

この記事の実験は主に 2 つのモーダル変換、画像テキストと音声テキストに対して行われます。画像とテキストのペアについて、著者は画像分類と画像/テキスト検索に関するゼロショット転送実験を実施しました。どちらのタスクでも、CWCL のゼロショット移行パフォーマンスは現在の SOTA メソッドを上回っています。 音声テキストモダリティに関して、著者は音声意図分類とキーワードクエリタスクを実施しました。これらの実験の詳細を以下に紹介します。

3.1 ゼロショット画像の分類

ゼロショット画像分類タスクについて、著者は、ImageNet、ImageNetV2、ImageNet-R、ImageNet-A、ObjNet の 5 つのデータ セットで実験を実施しました。次の表は、著者が比較ベースラインとして SimCon や LiT などのメソッドを使用した具体的な実験結果を示しています。CWCL が 2 つの異なるアーキテクチャ (ViT+transformer と ViT) で取得されたことがわかります。 +BERT ゼロショット分類パフォーマンスの向上

97cbf515f0994b8c9f777c55b36c4544.png

3.2 ゼロショット画像テキスト検索

さらに、著者はゼロ サンプルの画像テキスト検索実験も実施しました。実験データ セットは MS-COCO 検証セットを選択しました。次の表は、具体的な実験結果を示しています。モデル アーキテクチャには ViT+BERT も使用されました。 、< a i=1>CWCL コントラストを使用してトレーニングされたモデルのパフォーマンスは、標準のコントラスト損失関数を使用してトレーニングされたモデルのパフォーマンスよりも大幅に優れていることがわかります

ディー39bf2b39941f3b5fd0236b962abfc.png

3.3 ゼロショットプロンプトテンプレートの堅牢性分析

CWCL でのゼロショット分類と取得の実験を完了した後、著者は、ゼロショット画像分類などの CWCL のプロンプト堅牢性も分析しました。ラベルは直接分類タスクを位置合わせタスクに調整するために、テキスト プロンプトに変換されるため、作成者は k 個のテキスト プロンプト テンプレートを設定し、これらのテンプレート文は分類器を構築するときに使用されます。 すべての入力モデル「これは...の写真です」、「これは...の写真です」など、k=1,5,10個のテンプレートで実験が行われた。下の図はCWCLのパフォーマンスを示しています。異なる数のテンプレートが設定されている場合の通常の CL 損失。

75d8ba60c02b4bd49824012cb9668ad7.png

CWCL 損失を使用してトレーニングされたモデルは、少数のテンプレートを使用するとピークのパフォーマンスを達成できることがわかります。これは、CWCL がさまざまなテキスト プロンプトに対してより堅牢です。

3.4 ゼロショット音声対インテント分類

音声からインテントへの分類タスクでは、作成者は ASR-NLU パイプラインに従いました。つまり、最初に ASR (音声テキスト) を介して文字起こしし、次に NLU を使用しました。 (text-text) ) は、転写を意図に分類します。次の表は、この方法と他の方法の効果の比較を示しています。

9f0f7f84151847e18272405a4c9b8db6.png

すべての実験設定において、CWCL 損失を使用したマルチモーダル トレーニングの方が CL 損失よりも優れていることがわかります。 SLURP データ セットでは、テキスト モデル アーキテクチャとして RoBERTa+S および BART+Y を使用すると、パフォーマンスがさらに大幅に向上します。

04. 概要

この論文では、連続加重造影損失 CWCL と呼ばれる、クロスモーダル対比学習パラダイムで使用される新しいタイプの損失関数を提案します。CWCL の設計目標は、従来の対照的な損失 固有の欠陥から出発して、著者は、クロスモーダル アライメントに事前トレーニングされたモデルを使用する場合、従来の損失は監視効率が低く、トレーニング データ内の連続的な類似性を持つサンプルを完全に無視することを発見しました。。 CWCL は、対照的な監視を強化するために、同じバッチ内のすべてのサンプルの類似性情報を考慮することに重点を置いています。著者は、2 つのモーダル移行のゼロショット ダウンストリーム タスクでこの方法のパフォーマンスを検証しました。

参考

[1] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark 他、「自然言語監視から転送可能な視覚モデルを学習する」機械学習に関する国際会議。 PMLR、2021 年、8748 ~ 8763 ページ。

[2] Xiaohua Zhai、Xiao Wang、Basil Mustafa、Andreas Steiner、Daniel Keysers、Alexander Kolesnikov、Lucas Beyer、「Lit: Zero-shot transfer with locked-image text Tuning」、Proceedings of the IEEE/CVF Conference on Computerビジョンとパターン認識、2022 年、18123 ~ 18133 ページ。


  TechBeat 人工知能コミュニティについて

TechBeat (www.techbeat.net) は江門ベンチャーキャピタルと提携しており、世界的な中国の AI エリートが集まる成長コミュニティです。

私たちは、AI 人材向けによりプロフェッショナルなサービスとエクスペリエンスを作成し、彼らの学習と成長を加速し、それに伴っていきたいと考えています。

これが最先端の AI の知識を学ぶための高台、最新の作品を共有するための肥沃な場所、そして AI の進歩に向かうモンスターとアップグレードして戦うための拠点となることを楽しみにしています。

詳細>>世界的な中国の AI エリートが集まる学習と成長のコミュニティである TechBeat 

おすすめ

転載: blog.csdn.net/hanseywho/article/details/134163867