ビデオおよび画像検索におけるマルチモーダルセマンティックマッチングモデル—原理、啓蒙、応用、展望

ここに画像の説明を挿入

序文

3 年以上前、「ビデオ理解について語る」という記事 [1] で、著者はビデオ理解についての理解を簡単にまとめたことがあります。幸いなことに、彼は友人たちに認められました。読者に認められたことは、この学会の最も誇り高い成果です。著者です。さて、この記事には多くの欠陥と狭い視点があるように思えますが、特に近年のマルチモーダル モデルの人気により、ビデオ理解の方向に多くの革新的な技術が生み出されています。なぜマルチモーダル フュージョンが必要なのでしょうか? [ 2] [1] にパッチを適用しようとしましたが、作成者の時間とその時点の理解レベルに限定され、議論は行われませんでした。この記事では、近年のマルチモーダル モデルを簡単に要約し、画像検索やビデオ検索などのリッチ メディア検索シナリオにおけるこれらのモデルの応用可能性について簡単に説明したいと考えています。著者は業界に深くなく、表面的な知識しかありません。間違いがあれば、ご容赦いただき、ご連絡ください。この記事はCC 4.0 BY-SA著作権規約に準拠しています。転載する場合は、著者に連絡して指示してください。ソース、ありがとう

はじめに: 論文の構成構造

この記事は長くなっています。さまざまな知識背景を持つ読者に適応するために、著者はこの記事へのガイドを提供しています。関連する知識背景を持つ読者は、必要な章にジャンプしてください。

  • 「0x01 ビデオと画像: 時間と空間に分散された情報」では、主に画像とビデオの視覚的シンボルを紹介し、情報検索におけるテキストと視覚の意味的整合と意味的融合の応用を簡単に紹介します。
  • 「0x02 シングルモーダルビデオ/画像特徴表現」では、主に画像とビデオのシングルモーダル表現学習方法を紹介し、最後にテキスト表現方法の概要を説明します。ユニモーダル モデリングはマルチモーダル モデリングの基礎であり、多くのクロスモーダルおよびマルチモーダル モデリング手法はユニモーダル モデリングの影響を深く受けているため、この章を導入する必要があると著者は考えています。
  • 「0x03 セマンティック ラベルの使用: マルチモーダリティに向けて」は主に、マルチモーダリティとシングルモーダリティの間のいくつかの相関関係と相違点を紹介するための導入として使用されます。この章は、前述のシングルモーダル モデリングと次のマルチモーダル モデリングの間の橋渡しとして機能します。モデリングです。
  • 「0x04 Before CLIP: マルチモーダル情報融合モデリング」 このパートでは、正式にマルチモーダル モデルの紹介を開始します。この章では、CLIP の前にセマンティック融合モデルを紹介します。
  • 「0x05 After CLIP: マルチモーダル情報コントラストと融合モデリング」 このパートでは、CLIP 後のセマンティック アライメント モデルとセマンティック フュージョン モデルを紹介します。これらのモデルのほとんどは、CLIP の欠陥をいくつか改善したものです。
  • 「0x06 旅の終わり」はこの記事のまとめです。

0x01 ビデオと写真: 時間と空間に分散された情報

人間は視覚的な動物であり、見たものを手に入れるのは常に人間の最も原始的な欲求です。理解し、深く考え、想像力を働かせる必要がある文字情報に比べ、動画や写真などのリッチメディア情報は、情報伝達の効率において絶対的な優位性を持っています。文字の情報が、それぞれのシンボルが持つ人類共同体の合意という抽象的な意味とその抽象的な意味の自由な組み合わせによって生み出される無限の変化から来ているとしたら、映像や写真の情報を担う「視覚的シンボル」とは何でしょうか?

画像の視覚的要素

ほとんどの画像の基本要素はピクセル (Pixel) 2であり、これらのピクセルが断片となって画像ブロック (Patch) を形成します。写真に含まれる主題はあらゆる分野に広く分布しており、図 1.1 に示すように、生体画像、リモートセンシング写真、ネットワーク絵文字、ユーザーがアップロードした自然写真、自撮り写真、赤外線画像などはすべて写真とみなすことができます。特定の種類の画像。本稿では、ユーザーがアップロードした自然画像(以下、一般画像と呼びます)に焦点を当てます。

ここに画像の説明を挿入

図 1.1 この写真に含まれる主題は、工学、生物学、インターネットなどのさまざまな分野に広く分布しています。

自然写真には複雑な視覚的意味論が含まれており、論文 [6] では、区別 (Distinguished) を持つ共通の視覚的意味論的要素は、実体 (Entity)、属性 (Attribution)、関係 (Relation) などであると著者は考えています。図 1.2 (ac) に示すように、これらの視覚要素はより具体的で、エンティティの大きなゴールデン レトリバーと大きなオレンジ色の猫、属性の紫、青、黒、関係の乗り、修理、逆立ちなど、ローカルなセマンティクスを持ちます。等 いくつかのシーンでは、図 1.2 の (d) のように、画像全体の大域的な視覚的意味論を表現する必要があり、これらの局所的な意味論を組み合わせて大域的な意味論を形成する必要があります。絵の中の「憂鬱、悲しみ」を表現するには、絵の全体的なトーン、うつ伏せになっている女の子、キャンドルが消えているなどの要素を抽出する必要があります。わかりやすくするために、著者はこのグローバル セマンティクスを参照しています。この抽象的なセマンティクスのモデリングは、後で説明する弱い視覚的なセマンティクス データ モデリングと同様であるため、図示されていません。
ここに画像の説明を挿入

図 1.2 画像内の視覚要素には、エンティティ、属性、関係などが含まれます。ローカル要素の組み合わせにより、画像全体の雰囲気を説明するグローバルな視覚要素が形成されます。
それだけでなく、絵の視覚的意味論はより抽象的なものになる可能性があります。図 1.3 に示すように、風刺画は絵の視覚的要素を知覚するだけでは真に理解することはできません。この種の高度に抽象化された拡張意味論には多くの歴史、文化が必要です。この種の深い視覚的意味論的理解は、この論文の主題ではありません。

ここに画像の説明を挿入

図 1.3 視覚的要素が最も低レベルの信号にすぎないいくつかの風刺漫画。

もちろん、これらの視覚的要素は氷山の一角にすぎない可能性があります。画家は筆運びで感情を表現できますが、写真家は光と影で物語を伝えることができます。多くの場合、写真の具体的な意味論が基礎となる意味論であり、抽象的な意味論を理解するのは困難です。モデルなので、それはこの記事の特別な焦点ではありません (弱い視覚的セマンティクスであっても、抽象的セマンティクスに関連する可能性があります)。したがって、この論文では、ほとんどの画像の具体的な意味論は、エンティティ、属性、関係などの視覚シンボルを通じて伝達され、これらの視覚シンボルは多かれ少なかれテキスト情報と関連付けられる可能性があると著者は考えています。図 1.4 に示すように、テキストと視覚の間に確立されたこの意味論的な橋渡しは、通常、意味論的整合と意味論的融合の2 つの段階に分けることができます。

  • セマンティック アラインメント: テキスト内の視覚的エンティティと属性の説明を、対応する視覚的要素にマッピングすることを指します。ここでのグラフィックとテキストのマッピング関係は、基本的な視覚的セマンティクスと呼ぶことができます。
  • セマンティック融合: セマンティックアライメントに基づいて、基本的な視覚的セマンティクスが融合および結合されて、複雑な複合視覚的セマンティクスを形成します。複合視覚セマンティクスには、視覚的な関係、より抽象的な視覚的な雰囲気などが含まれます。

テキストがコンパクトなセマンティクスと高い情報密度を持っていることを見つけるのは難しくありませんが、画像は通常、同様のセマンティクスの下で多くの情報の冗長性と低い情報密度を持っています。隠された情報を抽出してエンコードする セマンティクスについては、後ほど引き続き説明します。

ここに画像の説明を挿入

図 1.4 クロスモーダルセマンティックブリッジを構築する 2 つの段階: セマンティックアライメントとセマンティック融合。

ビデオの視覚要素

ビデオは、時間次元での画像の単純な拡張ではありません。異なるフレーム間の画像の視覚要素の時間的相関関係により、より複雑で変更可能な視覚シンボルがもたらされます。ビデオ フレームのすべての視覚シンボルが認識されたとしても、それらの時間上の単純な接続は、ビデオはビデオの視覚的シンボルを完全に表現することはできません。

视频的视觉符号最典型的比如动作,如Fig 1.5 (a)所示,动作序列通常是同个实体特定模式的行为,比如弯腰、捡起、起身,在以视频片段为单位的时候就能视为一整个视觉符号。动作通常是一个连续的线性符号,而视频的多帧特性意味着其存在非线性的帧间关联,如[9,10]中所介绍的通过组织视频非线性流进行动作理解的工作。非线性视频的特性在互联网视频中更为常见,如Fig 1.5 (b,c) 所示,互联网视频受到视频创作者的剪辑,视频通常都会出现镜头、场景的切换,事件的因果关系因此作为视觉符号存在于视频的非线性关系中。通常来说,视频的组成可以层次化地分为以下四部分[10],帧、镜头、事件乃至整个视频都可以视为视频的视觉元素。

帧(Frame) --> 镜头(Shot) --> 事件(Event) --> 视频(Video)

因此,对于视频的视觉元素挖掘,会比图片的视觉元素挖掘复杂很多,有些挖掘方法甚至和视觉本身无关,比如识别视频的OCR信息。在实际应用中,我们暂时不期望能对视频的视觉符号进行深入挖掘,认为其只需要挖掘出其中实体、属性、关系等基础视觉概念,顶多能延伸出一些简单的动作、场景视觉概念、简单事件的视觉概念等。

ここに画像の説明を挿入

Fig 1.5 各种类型、题材的视频,动作类,互联网上的vlog,howto类视频等包含着诸多剪辑,镜头切换等。

语义对齐/融合与信息检索

正如笔者在之前文章[25-27]中所谈到的,信息检索中最重要的一块就是相关性(Relevance),可以说相关性决定了整个搜索系统的基础体验好坏与否。在典型的搜索系统中,相关性由文本相关性进行建模,经典的有BM25、TF-IDF等基于词频的描述,在深度学习流行后,渐渐落地了各种端到端的语义相关性建模,如BERT、ERNIE等。这类型模型对相关性的建模是基于字词文本的语义匹配,如Fig 1.6(a)所示,苹果有两种常见语义,分别是电子产品和食物,Fig 1.6(b)展示了其他文本相关性的例子。
ここに画像の説明を挿入

図 1.6 現在、検索システムは依然として主に相関モデリングにテキスト情報を使用しています。
ウェブページ情報は、テキストベースの相関モデリングで十分かつ必要であり、ウェブページ情報の本体はテキスト情報であり、その内容やタイトル等の大部分がテキストで構成されている。視覚信号を主体とする映像や写真の場合、文字情報は映像・写真情報の一部を記述しているだけであり、映像・写真の文字情報は通常著作者によって作成されるため、必要ではあるが十分ではない(タイトル、OCR など)、作成者が悪意を持って不正行為を行って、実際のビデオ/画像コンテンツと一致しないタイトル/OCR を作成した場合、タイトルと一致しないいくつかの悪いコンテンツを認めることは簡単です。ビデオ/写真の主なコンテンツが主に視覚的なシンボルで構成されていることを考慮すると、テキストと一致する視覚的な信号をマイニングするのが直感的で効果的なアイデアです。図 1.7 (a) に示すように、クロスモーダル意味アラインメントと意味融合の技術により、テキスト文に現れる視覚的エンティティ (リンゴ、バナナ、キリン、サルなど) と写真/ビデオ内の視覚的エンティティが分離されます。アライメント一致である可能性があります。「木の上の灰茶色のサル」や「皮に黒い斑点のあるバナナ」などの、複雑に組み合わされた視覚的エンティティのいくつかは、融合と照合のために意味論的融合を必要とします。私たちはこれを総称して **クロスモダリティ セマンティック マッチング** (クロスモダリティ セマンティック マッチング) テクノロジーと呼びます。![ここに画像の説明を挿入](https://img-blog.csdnimg.cn/d6e63bed8d0b436c833fbfab3d0c88a2.png)
図 1.7 (a) テキストと視覚要素 (視覚エンティティなど) のクロスモーダルな意味論的調整 (b) 人間の思考ロジックは、テキスト、言語、および画像を通じて表現されます。

0x02 シングルモードビデオ/画像特徴表現

まえがきでも述べたように、著者はかつて [1] でビデオ理解について議論したことがありますが、その時は動きの理解がビデオ理解の中核的なタスクであると信じていましたが、2 年間の実務経験から、この結論には多少の偏りがあることが分かりました。まず、行動理解を利用する前提は、人間中心の映像コンテンツの理解であり、行動理解を利用して学習される映像の視覚記号の多くは人間の行動に集中しており、そこに現れる視覚的な実体や属性、関係性を知覚する能力です。動画では弱いです。これまでの議論から、インターネットビデオに代表される一般的な映像の視覚情報は複雑かつ変化しやすく、すべてのビデオコンテンツが人間中心であることは不可能であり、実際、私たちがオンラインで遭遇するビデオのほとんどは人間中心ではありません。第二に、生放送、知識の棚卸し、解説などの人間中心のビデオに出会ったとしても、ビデオの主な意味論は、その場での登場人物の行動ではなく、登場人物の説明の内容ではありません。 、OCR、ASR、その他の情報の方が重要です。 が重要です。行動理解アプリケーションは、カメラ監視、ドローン監視、ロボットアプリケーションなど、主にtoBメーカーに集中しています。インターネット動画の場合、動画全体の視覚情報を理解するために行動理解技術を使用するだけでは不十分であり、私たちはそれを実現したいと考えています。ビデオ内の視覚的なエンティティ、属性、関係などの視覚的なシンボルを認識します。

また、以前 [1] で述べましたが、従来のアクション認識では、ビデオ表現の学習に多数のアクション ラベルを使用する必要があり、アクション ラベルには多くの場合、コストと時間がかかる手動のラベル付けが必要です。 ] の最後は、アクションビデオ表現を学習するためのいくつかの自己教師あり学習方法にもつながります。これらの自己監視型手法では、ジグソーパズル [30]、色付け [31]、画像回転 [32] など、さまざまな種類の口実タスクを手動で設計する必要があります。これらの口実タスクは通常ヒューリスティックであり、その動作を保証するのは困難です。クロスデータセット 一般化可能性、言い換えれば、一般性が十分ではありません。汎用のビデオ/写真については、他のより効率的な自己教師あり学習方法があります。

絵の表現

SimCLR

冒頭で紹介したのは、有名な Hinton 氏の SimCLR [28] で、画像拡張 (image augmentation) を利用してポジティブ画像のペアを構築し、同時に他の画像をネガティブサンプルとして扱う手法です。画像ラベルを使用しないことを前提として、画像表現の自己教師あり学習を行う。図 2.1(a) に示すように、ここでf ( ⋅ ) f(\cdot)f ( )は画像エンコーダで、たとえばこの作品では ResNet-50 が使用されています。g ( ⋅ ) g(\cdot)g ( )は表現 (representation) を意味空間 (Semantic Space) にマッピングするマッピング関数を表し、通常 MLP モジュールで表現できます。たとえば、この作品では zi = g ( hi ) = W 2 σ を使用します。 (W 1 hi ) z_i = g(\mathbf{h}_i) = W_2 \sigma(W_1\mathbf{h}_i)z私は=g ( h私は=W2s ( W1h私は)、ここでσ ( ⋅ ) \sigma(\cdot)σ ( )は ReLU 活性化関数です。そしてt 〜 T t\sim \mathcal{T}tTandt '' 〜T t^{\prime} \sim \mathcal{T}tT は、同じ画像変換メソッドT \mathcal{T}Tによって生成されたサンプル 3 は、適切な画像変換の下で、画像はラベル不変性 (インスタンス ラベル不変性) を持ち、元の画像の異なる視点とみなすことができるため、これら 2 つの画像サンプルは正のサンプルと見なすことができます。ペア。指定されたバッチ サイズではNNNの場合、画像拡張により2 N 2Nを生成できます2 N枚のピクチャ。各サンプルにはポジティブ サンプルがあり、2 ( N − 1 ) 2(N-1)2 ( N1 )陰性サンプル。本稿における画像の変形は図 2.1 (b) に示されており、主にトリミング、反転、ピクセル空間処理などが行われます。

ここに画像の説明を挿入

図 2.1 (a) SimCLR のフレームワーク、(b) SimCLR で使用されるさまざまな画像拡張手法は、単独で使用するか、複数の画像拡張手法を組み合わせて使用​​することで、元の画像に対応するいくつかのポジティブ サンプル ペアを生成できます。

通过采用带温度系数的交叉熵损失作为对比损失进行建模(该损失函数被称之为NT-Xent loss4),如公式(2-1)所示,其中的 s i m ( u , v ) = u T v / ∣ ∣ u ∣ ∣ ∣ ∣ v ∣ ∣ \mathrm{sim}(\mathbf{u}, \mathbf{v})=\mathbf{u}^{\mathrm{T}} \mathbf{v} / ||\mathbf{u}|| ||\mathbf{v}|| sim(u,v)=uTv/∣∣u∣∣∣∣v∣∣表示了余弦相似度度量。不妨将余弦相似度拆开,视为对 u , v \mathbf{u}, \mathbf{v} u,v进行L2标准化(L2 normalization)后进行点乘进行相似度度量,在这个视角中,我们会发现得到的表征都在一个高维球面上,如Fig 2.2所示。公式(2-1)的 τ \tau τ是温度系数,而 1 [ k ≠ i ] \mathbb{1}_{[k \neq i]} 1[k=i]是指示函数,表示仅在 k ≠ i k \neq i k=iの場合は 1< i , j > <i,j><j> は正のサンプルのペアです。式 (2-1) の分母部分は陽性サンプル スコアとすべての陰性サンプル スコアの合計であり、分子部分は陽性サンプル スコアであることがわかります。この観点から見ると、バッチサイズが大きいほど生成される陰性サンプルの数が多くなり、陽性サンプルと陰性サンプルの比較がより十分になり、より多くの識別特徴を学習できるようになります。

L ( i , j ) = − log ⁡ exp ⁡ ( sim ( zi , zj ) / τ ) ∑ k = 1 2 N 1 [ k ≠ i ] exp ⁡ ( sim ( zi , zk ) / τ ) (2-1) ) \mathcal{L}(i,j) = -\log \dfrac{\exp(\mathrm{sim}(z_i, z_j)/\tau)}{\sum_{k=1}^{2N} \mathbb {1}_{[k \neq i]}\exp(\mathrm{sim}(z_i, z_k)/\tau)} \tag{2-1}L ( i ,j )=ログ_k = 12N _1[ k=]exp ( sim ( z私はzk)/τ)exp(sim(zi,zj)/τ)(2-1)

ここに画像の説明を挿入

Fig 2.2 将embedding进行L2标准化后,可视为将embedding嵌入到了高维球面上,而相似度计量则可以视为是在该球面上进行向量点乘。

该工作的消融实验对图片变换的组合,温度系数,batch size大小,训练epoch数量,特征表达位置的效果等进行了充分的探索,其试验部分值得诸位读者翻阅原文细看,本博文仅作抛砖引玉之功用,简单对其中笔者认为重要的结论和实验进行介绍。温度系数对于对比学习实在重要,正如笔者在[29]中讨论的,温度系数的大小控制着整个任务的学习难度。在本文也有着对应的消融实验,如Table 2.1 (a)所示,我们发现在采用了L2标准化的情况下,温度系数分别选取{0.05, 0.1, 0.5, 1}情况下,其训练的对比准确率(Contrastive acc.)依次下降,意味着温度系数越大,其对比学习任务难度越大。然而其泛化性能如最后一列所示,在 τ = 0.1 \tau = 0.1 τ=0.1的情况下取得最优,这意味着为了取得最好的表征效果,需要细致地调整对比损失的温度系数。此处对于温度系数的结论和博文[29]的是一致的,即是

温度係数を大きくすると比較タスクの難易度が上がり、困難なサンプルを正確に区別しようとしますが、温度係数を小さくすると比較タスクの難易度が下がり、タスクの収束が向上します。

唯一の違いは、CLIP などの作業では温度係数は通常学習可能 (学習可能な温度) ですが、SimCLR では温度係数が固定であることです。これはこの章の焦点では​​ありません。同時に、L2 標準化を使用する場合と使用しない場合でも、パフォーマンスに大きな差が生じることがわかります。L2 標準化を使用しない場合、比較学習パフォーマンスは高くなりますが、その表現能力は使用した結果には及ばないことがわかります。 L2標準化です。この点も比較的理解しやすく、図 2.2 (b) に示すように、a や b などの L2 標準化を採用すると、各埋め込みの法は 1 となり、次元の区別がなくなります。モジュラスのみ セマンティクスは、埋め込みの他のより特徴的な情報によって判断できます。c や d などの L2 標準化を使用する代わりに、異なる埋め込みのモジュールはトレーニング中に異なる場合があります。モデルは、埋め込み自体の意味情報を無視しながら、モジュール サイズの次元を通じて正のサンプルと負のサンプルを区別しようとします。これにより、トレーニング中に容易に収束する可能性がありますが、学習される表現は貧弱になります。

アブレーション実験の議論に戻ると、著者はトレーニング中のバッチ サイズの影響も調査しました。直感的には、より大きなバッチ サイズを使用すると、同じ反復でより多くの陰性サンプルが表示され、より適切になる可能性があります。比較して学習してください。また、トレーニング時間を増やす、つまりトレーニング エポックを増やすと、より多くの時間でより多くの負のサンプルを確認できるため、その効果はバッチ サイズを増やすのと同様になるはずです。表 2.1 (b) に示すように、固定エポックの場合、バッチ サイズが小さい場合よりも大きいバッチ サイズを使用する方が効果が高く、同じバッチ サイズの場合はエポックが大きいほど効果が高くなります。の効果。「/」の前は線形学習率スケーリングであり、「/」の後ろは二乗平均平方根学習率スケーリングを使用した結果であることに注意してください。二乗平均平方根学習率スケーリングの使用は、小さなバッチ サイズと少数のエポックでのトレーニングに有益です。バッチ サイズが小さすぎることによって生じるトレーニング上の不利な点は、トレーニング期間を長くすることで補うことができることを見つけるのは難しくありません。著者はまた、より大きなバッチ サイズとより長いトレーニング期間を使用しようとしましたが、図 2.3 (b) に示すように、バッチ サイズが 8192 に等しい場合、パフォーマンスは飽和しているように見えますが、トレーニング期間を長くするとパフォーマンスが飽和することがわかりました。継続的なパフォーマンスの向上を実現します。

ここに画像の説明を挿入

表 2.1 (a) 異なる温度係数の下で、アブレーション実験で L2 正規化を使用するかどうか、L2 標準化を使用した後の一般的な表現効果は、L2 標準化を使用しない結果よりも優れており、温度係数は学習の困難さと表現効果を制御します。タスク全体; ( b) 異なるバッチ サイズとエポック サイズでの線形プローブの結果、バッチ サイズが大きく、トレーニングが長くなると、表現効果が向上します。
同時に著者は、自己教師あり対比学習の表現に及ぼすモデルサイズの影響も調査し、図 2.3 (a) に示すように、より深く幅広いモデル (2x、4x は隠れ層を表す) が存在することがわかりました。対照学習ではより多くの利点があり、パラメータの数が増加するにつれて、教師あり学習のパフォーマンスとの差を徐々に縮めることができます。これは、自己教師あり対比学習では、より大規模で幅広いベース ネットワークを使用する必要があることを意味します。

ここに画像の説明を挿入

Fig 2.3 (a) 不同模型大小下的性能结果。蓝点表示simCLR模型100个epoch训练下的结果,红虚线表示1000个epoch训练下的结果,绿色虚线表示有监督学习下的resnet(训练了90个epoch); (b) 采用更长训练周期和更大batch size下的自监督对比学习结果。

作者也研究了不同的映射 g ( ⋅ ) g(\cdot) g()方式对于表征性能的对比,如Fig 2.4 (a)所示,无论是在那种输出维度下(32,64,…,1024,2048),采用了非线性映射(也即是ReLU函数)的 g ( ⋅ ) g(\cdot) g()总是比线性映射的表现更优(3.0%),而不采用任何映射函数总是劣于采用了映射(10.0%)。同时,作者也发现一个比较有趣的结论,采用了映射之前的表征 h h h和采用了映射之后的表征 g ( h ) g(h) g(h)对比,是前者优于后者,这个具体的讨论和本文的主题并不太相关,因此有兴趣的读者请移步论文。

ここに画像の説明を挿入

Fig 2.4 (a) 采用不同映射方式的性能表现对比;(b) 映射之前与映射之后的代理任务性能对比。

开篇的工作——SimCLR花了较长的篇幅进行介绍,这是因为其对我们后面的基于对比学习的多模态模型的建模和设计都有指导意义。总而言之,我们从以上的讨论中,能看出目前基于对比学习的自监督表征建模,有以下需要注意的点:

  • 大模型对于自监督对比学习很重要
  • 大batch size和更长的训练周期很重要
  • 采用非线性映射头很重要
  • 合适的温度系数很重要
  • 采用L2标准化很重要

我们将会发现,后面的无论是单模态表征或者跨模态表征的模型,或多或少都有这些点子的影子在。

Memory Bank 与 MoCo

从SimCLR的实验来看,增大batch size可以在更少的训练周期里面获得更好的效果,但是增大batch size通常需要更多的GPU资源。考虑到增大batch size的作用本质是增大一个iteration中能见到的负样本数量,可以考虑通过维护一个虚拟的负样本队列,通过采用历史上的负样本进行对比学习,以实现将batch size大小和负样本数量解耦的目的,而memory bank [34]就是这样一个采用负样本队列的工作。

在开始讨论memory bank工作本身之前,我们先尝试换个角度去看待对比学习,如Fig 2.5所示,我们不妨把对比学习中的正负样本匹配看成是通过query在字典里面查询,而正样本匹配则是query匹配到了正确的key,负样本匹配则是匹配到了错误的key。而编码器则可以分为Query编码器和Key编码器,在同模态建模时候QK编码器可以为相同的,在跨模态建模时候则通常是不同的。不难看出,为了Query能在字典中正确地匹配到Key,Query编码器和Key编码器的状态需要保持一致。何为状态一致呢?一般的理解来看,就是Query编码器和Key编码器在训练时是同步收到梯度影响更新的,Query编码器每更新一步,Key编码器就会更新一步。容易发现,SimCLR这种方式建模的Query编码器和Key编码器是相同的,因此QK编码器肯定是状态一致的。

ここに画像の説明を挿入

Fig 2.5 对比学习中的匹配关系,可以认为是Query在字典里面去检索,查询键为Key的内容,如果查询到了则为正样本,否则为负样本。Query和Key即可以是同模态的,比如都是图片,也可以是跨模态的,比如是文本和图片。
SimCLR のこのアプローチをエンドツーエンド比較モデリングと呼びます。図 2.6 (a) に示すように、クエリ エンコーダとキー エンコーダが同じエンコーダであるかどうかに関係なく、クエリ エンコーダとキー エンコーダは、勾配ガイダンスを受信することによって更新されます。同時に、これは SimCLR と CLIP の両方に当てはまります。このセクションで紹介するメモリ バンクは、図 2.6 (b) に示すように、仮想的なネガティブ サンプル キューを維持し、比較検討ごとにこれらのネガティブ サンプル キューからいくつかのネガティブ サンプルを収集して比較およびモデル化します。このようにして、ネガティブ サンプルの数とバッチ サイズの **分離** を実現できます。具体的には、図 2.7 の概略図に示すように、メモリ バンクの動作モードは次のとおりです。

メモリーバンクアルゴリズムの始まり

  1. まず現在のクエリ エンコーダft ( ⋅ ) f_{t}(\cdot)を使用します。f( )現在のすべてのZZZサンプルを計算してZZZ埋め込み、tt時間tにおける特徴量プールF t ∈ RZ × D \mathbf{F}_{t} \in \mathbb{R}^{Z \times D}FRゼット×ディ
  2. 機能プールからMMを抽出するM個のサンプルは負のサンプルとして使用され、M ∈ RM × D \mathbf{M} \in \mathbb{R}^{M \times D}MRM × D 、現在のバッチ サイズでのNNN個のサンプルを比較してR ( N + M ) × D \mathbb{R}^{(N+M) \times D} をR( N + M ) × Dの負のサンプル スコアリングを行い、図 2.7 に示すように現在のバッチ サイズ サンプルの比較スコアリングと組み合わせると、RN × ( N + M ) \mathbb{R}^{N \times ( N +M)}RN × ( N + M )スコア、そのうちNNN個の正のサンプルがスコアリングされ、残りは負のサンプルになります。このスコアリング マトリックスに従って、比較損失がモデル化され、勾配が生成されてクエリ エンコーダが更新され、t + 1 t+1 として記録されますt+時間1フィート + 1 ( ⋅ ) f_{t+1}(\cdot)ft + 1( )
  3. t + 1 t + 1を使用しますt+時間1フィート + 1 ( ⋅ ) f_{t+1}(\cdot)ft + 1()对N+M个样本的embedding进行计算后,将对应特征池里面的特征进行更新,得到 F t + 1 ∈ R Z × D \mathbf{F}_{t+1} \in \mathbb{R}^{Z \times D} Ft+1RZ×D
  4. 回到步骤1进行下一轮训练。

End of Memory Bank Algorithm

从这个过程来看,我们能发现这个过程中是没有Key编码器的,而Key编码的作用被memory bank这个半离线的样本储存单元给取代了。由于memory bank是在全局样本里面进行采样得到负样本,而 t + 1 t+1 t+1时刻的Query编码器结果只会在整个池子里面更新 N + M N+M N+M个样本的embedding,在 t + 2 t+2 t+2时刻中仍然会随机采样负样本,因此无法保证 t + 1 t+1 t+1时刻更新的embedding被采样到作为负样本供给 t + 2 t+2 t+2轮的训练。不难看出,此时Query编码器状态和Key编码器(也即是memory bank)状态是不一致的,且Key编码器落后于Query编码器的步数是无法预期的(因为是在总的样本池子里面随机采样负样本)。这个也正如在Table 2.2里面总结的一样。

ここに画像の説明を挿入

Fig 2.6 (a)端到端对比建模,(b) memory bank对比建模,(c) MoCo对比建模。

ここに画像の説明を挿入

Fig 2.7 Memory Bank框架下的特征更新方式示意图。
为了解决在memory bank中Query编码器和Key编码器状态不一致的问题,何凯明大佬提出了MoCo(Momentum Contrast) [33],其引入了动量编码器和动量更新保证了Query编码器和Key编码器的状态统一,如Table 2.2中所总结的。
提高batch size的方式 提高负样本数量的方式 batch size和负样本数量是否耦合 Query-Key编码器状态一致性 正样本对中QK编码器是否状态一致 是否会遇到BN层统计参数泄露
端到端 all_gather 通过提高batch size 一致更新 一致更新
MoCo 一般无需提高batch size 通过维护负样本队列 一致更新,或者Key编码器以固定步数落后于Query编码器 一致更新
Memory Bank 一般无需提高batch size 通过维护负样本队列 不一致,Key永远落后于Query,且落后步数不可预期 不一致,
Table 2.2 三种不同的对比学习方式的对比,分别是端到端、MoCo和Memory Bank。

MoCo和memory bank不同在于,MoCo在采用负样本队列进行负样本扩充的前提下,同样采用了Key编码器5。如Fig 2.8所示,其中的 f I f^{I} fI为Query编码器,而 F m I F^{I}_{m} FmI为Key编码器,前者输出的embedding矩阵为 z I ∈ R N × D z^{I} \in \mathbb{R}^{N \times D} zIRN × D、後者による埋め込み行列出力はzm I ∈ RN × D z^{I}_{m} \in \mathbb{R}^{N \times D} です。zメートルRN × D、ネガティブサンプルキュー内のサンプル数は固定ですMMM个,QI ∈ RM × DQ^{I} \in \mathbb{R}^{M \times D}QRM × D._ _ MoCo のプロセス全体は次のように説明されます。

MoCo アルゴリズムの始まり

  1. 正のサンプル スコアの計算では、現在のクエリ エンコーダーとキー エンコーダーのスコアを計算し、z I ⨂ zm I ∈ RN × 1 z^{I} \bigotimes z^{I}_{m} \in \mathbb を取得します。 { R}^{N \times 1}zzメートルRN × 1
  2. ネガティブ サンプルのスコアの計算では、現在のクエリ エンコーダーとネガティブ サンプル キューのスコアを計算し、z I ⋅ ( QI ) T ∈ RN × M z^{I} \cdot (Q^{I})^{ を取得します。 \mathrm{ T}} \in \mathbb{R}^{N \times M}z( QTRN × M
  3. 拼接正样本和负样本打分,得到 s ∈ R N × ( 1 + M ) s \in \mathbb{R}^{N \times (1+M)} sRN×(1+M),其中第一列总是正样本。
  4. 更新负样本队列,将当前Query编码器的表针 z I z^{I} zI入队负样本队列 Q I Q^{I} QI,并且将负样本队列中最老的样本进行出队。
  5. 通过动量更新对Key编码器进行参数更新,以保持对Query编码器的状态跟踪。
  6. 重复步骤1。

End of MoCo Algorithm

其中第5步的对Key编码器的动量更新很关键,这保证了Key编码器可以对Query编码器进行状态跟踪,动量更新的方式如公式(2-2)所示,其中的 θ K t + 1 , θ K t \theta_{K}^{t+1},\theta_{K}^{t} θKt+1,θKt分别是 t + 1 t+1 t+1 t t t时刻的Key编码器模型参数,而 θ Q t \theta_{Q}^{t} θQt t t 時間t , m ∈ [ 0 , 1 ) m \in [0,1)におけるエンコーダー モデル パラメーターのクエリメートル[ 0 ,1 )は運動量係数を示します (この論文のデフォルトはm = 0.999 m=0.999)メートル=0.999)。モメンタム更新方法を通じて、キー エンコーダーとクエリ エンコーダーが同じ状態を維持できることを確認するのは難しくありません。そのため、正のサンプル スコアは同じ状態のクエリ キー スコアになります。ネガティブ サンプル スコアの調査を続けます。ネガティブ サンプル スコアは、クエリ エンコーダーの埋め込みとネガティブ サンプル キューから取得されます。ネガティブ サンプル キューは、過去の TT によって作成されましたTモーメントに埋め込まれたクエリ エンコーダによって満たされ、ネガティブ サンプル キュー内の最も古い状態は常に現在のクエリ エンコーダTTT時間では、後退ステップ数が予想できるため、陰性サンプルのスコアリングもほぼ同じ状態であると考えられます。
θ K t + 1 ← m θ K t + ( 1 − m ) θ Q t (2-2) \theta_{K}^{t+1} \leftarrow m\theta_{K}^{t} + (1 -m)\theta_{Q}^{t} \tag{2-2}Kt + 1_K+( 1m ) iQ( 2-2 )
MoCo のトレーニング プロセス中に、Batch Norm 層の情報漏洩の問題が発生する可能性があります。これはこの論文の焦点では​​ありません。詳細については、ブログ投稿 [35] を参照してください。

ここに画像の説明を挿入

図 2.8 MoCo のフレームワークの概略図。主にクエリ エンコーダ、キー エンコーダ、ネガティブ サンプル キューで構成されます。
MoCo トレーニング メソッドを通じて、ネガティブ サンプルの数とバッチ サイズの分離が実現され、Query-Key エンコーダーの状態が一貫していることを理解するのは難しくありません。より多くの GPU リソースを使用せずに。SimCLR の記事の実験結果によると、バッチ サイズはある程度大きくなると飽和します (これが、SimCLR の作者がメモリ バンクや MoCo を使用しない理由です) が、MoCo を使用するとリソースを節約できます。参考としては良い方法であり、この方法はマルチモーダル モデルにも応用できるでしょう。

Masked AutoEncoder (MAE) [36] も Kaiming の傑作の 1 つです。NLP タスクにはマスク言語モデル (MLM) があり、入力テキストをマスクし、モデルを通じて欠落しているトークンの予測を試みます。これにより、モデルは (トークンのコンテキストから) トークンのセマンティクスを学習できるようになります。トークンがありません)。上で述べたように、テキストは情報密度の高い情報媒体であり、画像は情報の冗長性が高い媒体です。テキストはテキスト トークンをマスクすることで意味論的にモデル化できるため、画像はこの情報密度の低いデータ タイプを使用できない理由はありません。このように処理されました。

ここに画像の説明を挿入

図 2.9 (a) MAE フレームワークの概略図、(b) ImageNet 検証データと COCO 検証データの画像復元結果。使用されるマスク確率は 80% です。これは、196 個のパッチには 39 個のパッチしか残らないことを意味します。3 行目の右側の結果に注目してください。復元された結果は実際の元の画像とは異なりますが、意味的には実際にはより適切です。

在MAE这篇工作中,如Fig 2.9 (a)所示,首先仿照Vision Transformer [37] 中图片分块的处理,作者首先对图片进行网格划分,将图片均匀划分为多个 16 × 16 16 \times 16 16×16像素大小的图片块,记为一共有 N N N个图片块。随后按照给定的掩膜比例(mask ratio) p p p,以块的粒度对图片块进行随机去除,并将剩余的可见(visable)图片块 x ∈ R M × W × H × C \mathbf{x} \in \mathbb{R}^{M \times W \times H \times C} xRM×W×H×C作为ViT encoder的输入,记产出的embedding为 r ∈ R M × D \mathbf{r} \in \mathbb{R}^{M \times D} rRM×D,其中 D D D为embedding维度。此时,将缺失的embedding用mask token进行代替(类似于NLP中的[MASK]),将其余的图片块按照原先图片块的位置关系进行排序,通过ViT decoder进行像素级别的重建,即完成了MAE的建模。作者通过finetune任务和linear probe任务,在多个下游数据上进行了测试,证明了MAE对于图片表征学习的有效性,这些实验读者有兴趣可自行翻阅,本文主要对其重建的图片可视化结果进行展示,如Fig 2.9 (b)所示,其第一列表示mask后的图片,第二列表示恢复后的图片,第三列表示ground truth的愿图片,采用mask概率为80%,可以发现其重建图片效果在语义上都是没问题的。特别关注的是,第3排的右边结果,我们发现尽管重建图片和真实图片存在一定的差别(真实图片的人体是没头的,但是重建图片则是含有头的),但是重建图片在语义上更为正确(这个应该是人体的模型,大部分真实的人体都应该有头吧…),由此可知MAE的重建并不是基于记忆,而是基于语义。作者在原文还进行了不少消融实验,本文就列举其中一个对最佳掩膜比例的实验,如Fig 2.10所示,作者在MAE finetune和MAE linear probing的情况下,分别尝试了不同的掩膜比例,其中发现两种情况下的MAE最佳掩膜比例都在75%,而在BERT中,典型的掩膜比例是15%左右,这也一定程度上验证了图片的信息密度的确比文本的高。MAE这种对图片进行掩膜的思想,也直接影响到了跨模态模型的建模,如FLIP [24]。
ここに画像の説明を挿入

Fig 2.10 不同情况下的MAE最佳掩膜比例。 (a) 在finetune情况下,(b) 在linear probing情况下。

BEiT

除了MAE这种尝试对图片像素进行重建的工作外,还有一些工作尝试对图片的稀疏视觉令牌进行重建。在此之前,我们可以了解下什么叫做稀疏视觉令牌(sparse visual token),将图片进行分块后,通过模型将图片块映射到某个整型的ID,我们称之为图片块的视觉令牌化,对比稠密的浮点向量,它由于是一个整型的值,因此是稀疏的。图片的信息冗余性是能够对图片块进行视觉令牌化的重要前提,通过令牌化另一方面也可以提取图片的关键语义信息。VQ-VAE [45]就是一种尝试对图片进行稀疏视觉令牌化的工作,如Fig 2.11所示,作者通过图片的像素重建着手,将视觉的稀疏编码看成是中间的隐变量 z z z。通过维护一个向量字典(Embedding space),对图片块编码后的稠密向量在字典中进行最近邻查找,将查找得到后的索引视为是其稀疏编码(也既是稀疏视觉令牌)。整个过程的具体介绍请见博文 [46],此处不累述。

ここに画像の説明を挿入

Fig 2.11 VQ-VAE的模型框架,通过维护一个字典对图片块编码后的向量进行最近邻查找,得到稀疏编码。

而在BEiT [47]就是尝试对这种视觉令牌进行重建,而不是对像素本身进行重建的工作。像素本身是一种最底层的视觉元素,而若干像素组成的小图片块具有的语义也较为底层,如果对像素作为粒度进行重建,容易导致模型过多关注到像素重建这个底层任务,从而忽视了高层的一些视觉元素和视觉语义。具体来说,在BEiT中,作者引入了所谓Masked Image Modeling(MIM)的任务,一听这个名字我们就想到了BERT的Masked Language Modeling(MLM),没错这个工作就是效仿BERT的思想对图片进行自监督建模。顾名思义,如Vision Transformer一样,MIM这个任务会首先对图片进行分块(Patching),然后通过dVAE [48]对图片块进行视觉令牌化6。如Fig 2.12所示,类似MAE的做法,首先会随机对图片进行掩膜,而不同的点在于掩膜掉的图片块并不会被抛弃,而是用一个特殊的mask向量[M] e [ M ] ∈ R D e_{[M]} \in \mathbb{R}^{D} e[M]RD进行替代,多个图片块(包括[M])拉平到序列,表示为 x M x^{\mathcal{M}} xM,将其输入BEiT编码器,对产出的向量 { h i L } \{h_{i}^{L}\} { hiL}进行视觉令牌的预测。这里面的 i i i是第 i i iトークン出力、およびLLL は、エンコーダの最後の層の層の数を表します。このブロックの視覚的トークン予測は、式 (2-3) に示すように、マルチクラス分類子によってモデル化されます。
p MIM ( z ′ ∣ x M ) = ソフトマックス ( W chi L + bc ) (2-3) p_{MIM}(z^{\prime}|x^{\mathcal{M}}) = \mathrm{softmax }(\mathbf{W}_c h^{L}_{i}+b_c) \tag{2-3}pミム_ _( z x_=ソフトマックス( WchL+bc( 2-3 )

ここに画像の説明を挿入

図 2.12 BEiT のモデル フレームワーク。ビジュアル トークンは dVAE によって抽出され、BEiT エンコーダーは標準の Vision Transformer です。

もちろん、画像ブロックのマスキングは画像ブロックをランダムに選択することで行われるのではなく、「ブロック」単位で選択されます。両者の違いは図 2.13 に示すように、ランダムマスクは長さと幅をランダムに選択できます。固定マスク画像内のブロック数が同じ場合のブロックの位置と画像内のブロックの位置 詳細については原論文を参照してください。

ここに画像の説明を挿入

図 2.13 画像ブロック単位のランダム マスキングとブロック単位のランダム マスキングの違い。後者の方がより大域的なセマンティクスを学習できます。

BEiT对图片进行稀疏编码,并且通过稀疏编码后的图片块的重建,进而提高图像自监督任务的语义建模能力,这一点非常有创新性。然而遗憾的是BEiT里采用的dVAE的重建目标仍然是像素级的重建,因此其视觉令牌化后的稀疏编码高层语义能力仍可以优化。启发与此,在BEiT v2 [49]中,作者在BEiT的MIM任务基础上,尝试对稀疏令牌化这个过程也进行更为合理的建模。如Fig 2.14所示,在BEiT v2中,作者大部分参考了VQ-VAE的方法,而区别在于最后的重建目标并不是恢复图片的像素,而是对齐Teacher模型的产出。此处的Teacher模型是大型的视觉语义模型,比如CLIP [15] 或者DINO [50],其最后pooling层前的feature map可视为是具有语义特性的特征,表示为 t i \mathbf{t}_i ti,而模型输出则表示为 { o i } i = 1 N \{\mathbf{o}_i\}_{i=1}^{N} { oi}i=1N。相较于对像素恢复通过MSE建模,此处会采用最大化 t i \mathbf{t}_i ti o i \mathbf{o}_i oi的余弦相似度 cos ⁡ ( o i , t i ) \cos(\mathbf{o}_i, \mathbf{t}_i) cos(oi,ti)进行建模。此处的稀疏令牌是由最近邻查找字典得到的,可用公式(2-4)进行表示,而这个字典会通过梯度进行更新。作者把整个稀疏令牌的学习过程称之为vector-quantized knowledge distillation(VQ-KD),其最终的损失函数如公式(2-5)所示。不难知道,由于最近邻查找是没有梯度的,在实现的时候采用了所谓的“梯度拷贝”的方式复制了梯度,这个具体解释可见博客 [46],而公式(2-5)中的 s g [ ⋅ ] \mathrm{sg}[\cdot] sg[]表示的就是stop gradient,即是停止梯度的意思。我们很容易发现VQ-KD的loss和VQ-VAE的loss其实是一模一样的,因此VQ-KD和VQ-VAE的区别,以笔者的角度来看就是引入了Teacher模型进行了语义知识的蒸馏,这也和它的取名可谓贴切了。
z i = arg ⁡ min ⁡ j ∣ ∣ l 2 ( h i ) − l 2 ( v i ) ∣ ∣ 2 (2-4) z_i = \arg \min_{j} ||l_2(\mathbf{h_i})-l_2(\mathbf{v}_i)||_2 \tag{2-4} zi=argjmin∣∣l2(hi)l2(vi)2(2-4)

L V Q − K D = min ⁡ ∑ x ∈ D ∑ i = 1 N − cos ⁡ ( o i , t i ) + ∣ ∣ s g [ l 2 ( h i ) ] − l 2 ( v z i ) ∣ ∣ 2 2 + ∣ ∣ l 2 ( h i ) − s g [ l 2 ( v z i ) ] ∣ ∣ 2 2 (2-5) \begin{align} \mathcal{L}_{VQ-KD} &= \min \sum_{x\in \mathcal{D}} \sum_{i=1}^{N} -\cos(\mathbf{o}_i, \mathbf{t}_i)+ \\ & ||\mathrm{sg}[l_2(\mathbf{h_i})]-l_2(\mathbf{v}_{z_i})||_2^2 + ||l_2(\mathbf{h_i})-\mathrm{sg}[l_2(\mathbf{v}_{z_i})]||_2^2 \end{align} \tag{2-5} LVQKD=minxDi=1Ncos(oi,ti)+∣∣sg[l2(hi)]l2(vzi) 22+∣∣ l2( h私はsg [ l2( vz私は)] 22( 2-5 )

ここに画像の説明を挿入

スパースビジュアルコーディングのプロセスも、図 2.14 BEiT v2 で意味論的にモデル化されています。

それでは、学習された辞書は期待に応え、重要な意味上の特徴を備えているのでしょうか? 筆者が辞書を視覚的に分析したところ、図 2.15 に示すように、ImageNet の有効な画像セットと学習済み辞書の各単語に対して最近傍検索を実行することで、画像ブロックをクラスタリングすることができました。この方法が実際に同じ種類の意味論の視覚概念を特定の単語ベクトルにクラスタリングできることを見つけるのは難しくありません。これは、学習された単語が重要な視覚意味論概念を持っていることを意味します。

ここに画像の説明を挿入

図 2.15 ビジュアル辞書の結果を視覚化する 各単語のベクトルに対応するコンテンツが明らかな視覚的意味論を持っていることがわかります。

BEiT v2 では、画像粒度表現と画像ブロック表現の間の差、つまり、対応する表現と他のトークンの対応する表現の間の差異を減らすためにパッチ集約戦略を使用することも提案されていますが、これはそうではありません[CLS]。この記事の焦点なので、詳細には触れません。

ビデオ表現

著者はかつて「Wanzi Changwen Talking about Video Understanding」[1] でビデオの自己教師ありモデリングについて言及しており、フレーム シーケンス順序に基づく予測、追跡ベース、ビデオ ベースなどのビデオ モデリングのいくつかの自己教師あり手法について言及しています。着色方法。現在一般的に普及しているビデオの自己教師ありモデリング手法は、画像モデリングから大きな影響を受け、ビデオの再構成に基づいた手法が生み出されており、ここでは主にこのタイプの手法を紹介します。

ビデオMAE

视频作为静态图片在时间域上的展开,其自监督建模受到了很多图片建模的启发,而VideoMAE [51]就是一个受到了图片MAE建模影响的工作,如Fig 2.16所示,videoMAE的流程和图片MAE对比来看是非常相似的。图片的MAE建模考虑随机对图片块进行掩膜,而视频是否也可以直接挪用这个方法呢?如Fig 2.17所示,视频中可行的掩膜方案有几种:随机帧掩膜(random frame masking)、随机图片块掩膜(random masking)、管式掩膜(tube masking)。正如之前的讨论,视频和图片都是有非常丰富信息冗余量的媒体,视频比起图片来说除了空间信息冗余度,还具有着时间上的冗余度7,这一点并不难理解,视频通常在相邻帧的变化都是缓慢的。如果和图片MAE一样采用随机图片块掩膜策略,那么在训练过程中就有可能存在信息的“在时间维度的泄漏”,而这将会导致预测当前图片块的这个目标,会倾向于通过相邻帧的信息进行填补来实现,而不是去学习其语义后进行填补,显然这并不利于模型学习视频的语义。因此本工作采用了所谓的管式掩膜(tube masking),如Fig 2.17 (d)所示,其对同个图片块的相邻帧对应的图片块也进行掩膜,从而减少模型通过“时间捷径”对缺失图片块进行填补的可能性,进而让模型优先去学习视频的语义。

ここに画像の説明を挿入

Fig 2.16 videoMAE的流程示意图,其采用了与图片随机掩膜不同的掩膜策略,即是采用管式掩膜。

ここに画像の説明を挿入

Fig 2.17 在视频中可用的几种掩膜策略,帧掩膜、随机掩膜与管式掩膜。

BEVT

上で述べたように、画像ピクセルを再構成するタスクは、高レベルの意味論的特徴を無視しながら、低レベルの視覚特徴を学習するのは簡単です。視覚の高レベルのセマンティクスのモデリング。ビデオ モデリングの場合もこの問題は存在するため、BEVT [55] では、BEiT シリーズの研究からのインスピレーションに基づいて、著者はビデオ ピクセル自体ではなく、ビデオ ブロックがスパースになった後でトークンを再構築しようとしています。同時に、ビデオ固有の時間空間意味論的特性により、ビデオの視覚空間特性をより適切にモデル化するために、著者はビデオ ストリーム (ビデオ ストリーム) と画像ストリーム (イメージ) を同時にトレーニングする方法を採用しています。 Stream)、そのビデオ エンコーダと画像エンコーダは重み共有を使用します。モデル全体のフレームワークは図 2.18 に示されていますが、この記事では特定の技術については紹介しませんので、興味のある方は元の論文を参照してください。

ここに画像の説明を挿入

図 2.18 BEVT のモデル枠組みの模式図。

テキスト表現

文字表現については本記事の主眼ではないので紹介しませんが、興味のある方は各自で文献を参照してください。(実際、それは著者が怠け者だからです:P。著者はテキスト モデリングについて特に体系的に理解していないことを知っているので、間違いを犯すことはありません。)

0x03 セマンティックタグの使用: マルチモダリティに向けて

以上、視覚的単峰性とテキスト的単峰性の自己教師あり表現手法について簡単に紹介しましたが、自己教師ありモデリングについては皆さんも多かれ少なかれ理解していると思います。そしてこの章の初めから、ついにクロスモダリティの境界に正式に足を踏み入れることになります。ようこそ、私の旅行者、マルチモーダルな世界へようこそ~

人間の意味表現と理解のプロセス

マルチモーダルの世界に入る前に、マルチモーダル (複数の様式) とは何かを理解する必要があることは間違いありません。著者の視点では、それがテキストであれ、視覚であれ、音声であれ、さらには人間のボディランゲージであれ、人間の手足や器官が人間の思考における意味論や感情を表現するために使用できるすべての手段が考えられます。をモダリティとみなすことができ、これらのモダリティの組み合わせとモーダル情報の相互作用をマルチモーダルとみなすことができます。図 3.1 に示すように、人間の意味表現と理解は、情報の符号化、情報の解読、そして人間の思考の最も重要な部分として表現できますが、人間の思考を人間の合理性や思考を表現するブラックボックスとして考えることにします。情報の符号化と情報の復号化は、人間が目、口、鼻、耳、手足などの外部器官を通じて自分の考えを表現したり、他人の考えを理解したりするための手段です。しかし、人間集団の情報相互作用(情報の符号化・復号化を含む)においては、ある具体的概念と抽象的概念8がある程度収束し、概念の収束結果は人間の合意概念ライブラリに合意の形で保存されることになる。概念が普遍的な概念になる。

ここに画像の説明を挿入

図 3.1 人間の合意概念の蓄積は、人間のコミュニケーションにおける蓄積を形成します。

このことから、言語、画像、映像、音、体の動き、表情など、それらはすべて人間が内なる思考を表現する手段であることがわかりますが、人間の最低レベルの思考は現時点では理解できません。隠し変数xxとみなすx、およびこれらのモードの式は明示的な変数zzz、情報エンコーディングは関数f ( ⋅ ) f(\cdot)f ( )、ビジュアル エンコーディングとテキスト エンコーディングを使用すると、式 (3-1) が得られます。ここで、ztext、zvision z_{text}、z_{vision}zテキスト_ _ _zv i s i o nテキスト表現やビジュアル表現をある数値表現(数値表現)したものと考えることができ、現在私たちが利用しているのは埋め込み表現(Embedding)、あるいは分散表現(Distributed Representation)と呼ばれるもので、一般的には密な浮動表現です。 、 ztext ∈ RD z_{text} \in \mathbb{R}^{D}などzテキスト_ _ _RDもちろん、この式が必ずしも最も正確であるとは限りません。
ztext = ftext ( x ) zvision = fvision ( x ) (3-1) \begin{align} z_{text} &= f_{text}(x) \\ z_{vision} &= f_{vision}(x) \end{整列} \tag{3-1}zテキスト_ _ _zv i s i o n=fテキスト_ _ _( × )=fv i s i o n( x )( 3-1 )
人間の合意によれば、ある概念があるx A x_Aバツのテキストと視覚的表現では、 ftext ( x A ) = fvision ( x A ) f_{text}(x_A)=f_{vision}(x_A) と考えられます。fテキスト_ _ _( ×=fv i s i o n( ×),也就有ztext A = zvision A z_{text}^{A}=z_{vision}^{A}zテキスト_ _ _=zv i s i o n, 図 3.2 に示すように、2 つのクロスモーダル概念が同一視できると判断されると、それらを共通の意味空間にマッピングできます。このプロセスは、まさに前に説明した意味論的調整です。この意味的な調整は、テキストや画像だけでなく、音声、ボディーランゲージ、表現などにも当てはまります。

ここに画像の説明を挿入

図 3.2 コンセンサス概念が共通の意味空間にマッピングされた後、意味の整合が達成されます。
これで、セマンティクスとは何かがわかりました。セマンティクスとは、人間が同意する具体的または抽象的な概念です。セマンティック ラベルについてさらに議論する必要があります。以前に私たちのブログ投稿 [53] でセマンティック タグについて説明しましたが、完全を期すためにここでも同じことを行います。

セマンティックラベル

在分类任务中,我们的标签通常是“硬标签(hard label)”,指的是对于某个样本,要不是类别A,那么就是类别B,或者类别C等等,可以简单用one-hot编码表示,比如[0,1,0], [1,0,0]等,相信做过分类任务的朋友都不陌生。以ImageNet图片分类为例子,人工进行图片类别标注的过程并不是完全准确的,人也会犯错,而且犯错几率不小。那么很可能某些图片会被标注错误,而且图片信息量巨大,其中可能出现多个物体。此时one-hot编码的类别表示就难以进行完整的样本描述。我们这个时候就会认识到,原来标注是对样本进行描述,而描述存在粒度的粗细问题。one-hot编码的标签可以认为是粒度最为粗糙的一种,如果图片中出现多个物体,而我们都对其进行标注,形成multi-hot编码的标签,如[0,1,1]等,那么此时粒度无疑更为精细了,如果我们对物体在图片中的位置进行标注,形成包围盒(bounding box,bbox),那么无疑粒度又进一步精细了。

也就是说,对于标注,我们会考虑两个维度:1)标注信息量是否足够,2)标注粒度是否足够精细。然而,对于一般的xxx-hot标签而言,除了标注其类别,是不具有其他语义(semantic)信息的,也就是说,我们很难知道类别A和类别B之间的区别,类别C与类别B之间的区别。因为人类压根没有告诉他,如Fig 3.3 (a) 所示,基于one-hot标签的类别分类任务,每个标签可以视为是笛卡尔坐标系中彼此正交的轴上的基底,这意味着每个类别之间的欧式距离是一致的,也就是说,模型认为猫,狗,香蕉都是等价的类别,但是显然,猫和狗都属于动物,而香蕉属于植物。基于one-hot标注,模型无法告诉我们这一点。

ここに画像の説明を挿入

Fig 3.3 (a) 分类标签,通过one-hot编码实现,是一种非语义标签,在one-hot场景中,每个类别标签之间的距离是一致的,但是显然,猫和狗属于动物类别,而香蕉属于植物类别,这种标签无法提供足够的语义信息;(b) 语义标签,如果我们的标签是语义标签,那么此时类别标签之间的欧式距离可以衡量类别之间的相似程度,这点可视为是简单的语义信息。

也就是说,猫和狗,相比于香蕉,有着更为接近的语义,也许Fig 3.3 (b)会是个更好的选择。如果我们的标签不再是one-hot的,而是所谓的语义标签,或者在NLP领域称之为分布式标签(Distributing label, Distributing vector)或者嵌入标签(embedding label, embedding vector),那么类别标签之间的欧式距离就可以描述类别之间的相似程度,这个可视为是简单的语义信息,然而很多高层语义信息都依赖于此。

获取语义标签难以依靠于人工标注,因为人的语义标注有以下固有缺陷:

  1. 人类无法很好客观地描述每个视觉语义之间的相似程度。
  2. 视觉语义概念数不胜数,人类难以对所有概念进行标注。
  3. 语义是人类的群体共识,而个体的标注很容易引入个体偏见。

因此,更为可行的方法是采用自监督的方法学习模态内部/模态之间的固有结构,我们知道一个类别称之为“狗”,另一个类别称之为“猫”,还有一个类别是“香蕉”,我们通过word embedding的方法,可以得到每个类别描述的词向量,因为词向量是基于共现矩阵或者上下文局部性原理得到的,因此大概率语义相关的类别会具有类似的词向量,从而实现语义标签的生成。

当然,这种语义标签只能表达粗糙的,低层次的语义信息,比如类别之间的相似程度。如果涉及到更高层的语义呢?比如Video QA场景中,给定一个图片,我们基于图片给出一个问题,然后期望模型回答问题;比如Image Caption,给定图片,然后模型需要尝试用语言对图片进行描述。这些任务都是需要很高层次的语义标注才能实现的。通常来说,此时人工标注能做到的就是给定一个图片,让多个人以相近的标准去进行描述,然后形成图文对<image, text#1, text#2...text#n>,让模型进行学习。当然这种需要大量人力进行标注的工作量惊人,因此更好的方式是在互联网挖掘海量的无标签带噪信息,比如网页中图片的上下文可以认为是相关的,比如朋友圈,微博的图文评论等,这些带有噪声,但是又具有相关性的海量数据也是可以挖掘的。

当然,高层语义信息也依赖于底层语义的可靠,诸如目前很多transformer在多模态的应用,如ViLBERT [53],ERNIE-ViL [54]等,都依赖与词向量的可靠,然后才谈得上高层语义的可靠。从这个角度来看,其实从底层语义,底层CV&NLP任务到高层语义多模态任务,其实是有一脉相承的逻辑在的。

多模态模型需要语义标签数据

什么叫做多模态呢?我们之前已经谈到过了,无非是对于同一个概念,同一个事物通过不同的模态进行描述,常见的如用图片、视频、语言、语音对某一个场景进行描述,这就是多模态的一个例子。多模态目前是一个很火的研究方向,目前视频语义复杂,特别是在搜索推荐系统中,可能包含有各种种类的视频,光从动作语义上很难进行描述。如果扩充到其他更广阔的语义,则需要更加精细的标注才能实现。通常而言,动作分类的类别标注就过于粗糙了。

考虑到搜索推荐系统中广泛存在的长尾现象,进行事无巨细的样本标注工作显然是不可取的,再回想到我们上一节中谈到的“语义标签”的概念,即便有足够的人力进行标注,如何进行合适的样本标注设计也是一件复杂的问题。对于一张图(亦或是一个视频),单纯给予一个动作标签不足以描述整个样本的语义,额外对样本中的每个物体的位置,种类进行标注,对每个样本发生的事情进行文本描述,对样本的场景,环境进行描述,这些都是可以采取的进一步的标注方式。

怎么样的语义标签才是合适的呢?就目前而言,据笔者了解,在预训练阶段,为了保证预训练结果能够在下游任务中有效地泛化,不能对预训练的语义进行狭义的约束,比如 用动作类别语义进行约束就是一个狭义约束。为了使得标注有着更为通用的语义信息,目前很多采用的是多模态融合的方法。

在多模态融合方法中,以图片为例子,可以考虑用一句话去描述一张图中的元素和内容(此处的描述语句可以是人工标注的,也可以是通过网络的海量资源中自动收集得到的,比如用户对自己上传图片的评论,网页图片上下文,描述甚至是弹幕等),比如在ERNIE-VIL [16]中采用的预训练数据集Conceptual Captions (CC) dataset [6],其标注后的样本如Fig 3.2所示。其中的虚线框是笔者添加的,我们注意到左上角的样本,其标注信息是"Trees in a winter snowstorm",通过这简单一个文本,伴随配对的图片,我们可以知道很多信息:

  1. 在暴风雪下,天气以白色为主。
  2. 树的形状和模样,一般是直立在土地上的。
  3. 暴风雪时候,能见度很低。

「二人の少年が木の上で遊んでいる」など、データセット内に木に関する説明的なテキストが含まれている場合、モデルはこれらのサンプルを組み合わせて、人間のラベルがなくても「木」の概念を学習する可能性があります。境界ボックスのラベルを学習できるほか、セマンティック ラベルの汎用性により、吹雪に関する他の概念を学習することもできます。この方法により、ロングテール問題によるラベル付け圧力をある程度軽減することができる。また、テキストの埋め込み特徴が意味属性を持っているため、テキストタグが同様の意味の表現(同義語、同義語など)と互換性があり、モデルの汎用性がさらに向上するという特徴があります。マルチモーダル融合モデル。

要約すると、著者はマルチモーダル融合モデルには次の利点があると考えています。

  1. 注釈の精度は低くなりますが、人間の直感的な絵の見方や話し方で注釈を付けることができます。
  2. 画像のコメント、集中砲火、ユーザーの自己記述など、弱いラベルが付けられた大量の画像記述データがインターネットを通じて収集される可能性があります。
  3. セマンティクスはより一般的で、さまざまな下流タスクの事前トレーニング済みモデルとして使用できます。
  4. これにより、ロングテールの問題が軽減され、同様のセマンティクスを持つシーンにより親しみやすくなります。

したがって、著者は、インターネット上に弱いラベルが付けられた大量のデータが存在する現在の時代と、コンピューティング能力が大幅に向上した時代においては、クロスモーダルビデオや画像検索などのアプリケーションにマルチモーダル融合手法を採用することが不可欠であると考えています。推奨事項は、現在と将来の方向性です。次回の連載では、これらの方法を簡単に紹介します。

ここに画像の説明を挿入

図 3.4 より一般的な意味論的な注釈方法を使用して画像を記述すると、注釈のプレッシャーが大幅に軽減され、一般的な意味論を学習できるようになります。

0x04 Before CLIP: マルチモーダル情報の融合モデリング

著者の前回の記事では、シングルモーダル モデリングやマルチモーダル データ収集などの事前知識を読者に理解していただきましたが、この記事ではマルチモーダル モデルに正式に触れることができます。著者は、ICML 2021 で公開された画像とテキストの比較事前学習モデル (CLIP) が境界線として使用できると信じています。この前後のマルチモーダル研究活動は、まったく異なる研究パラダイムを持っています。その驚くべきゼロショットと少数の研究は、 -ショット機能により、マルチモーダル研究に対する研究者の熱意がさらに高まります。

本章不会对CLIP进行细致的介绍,而会把这个荣耀留在第0x05章,届时CLIP将浓墨重彩的登场。抛开CLIP的细节,我们首先对比在CLIP前后的主要多模态模型和所采用的预训练数据集,如Fig 5.1所示,我们发现在CLIP之前的预训练数据都较小,数量级以“百万”为单位,而在CLIP之后呢,预训练数据的大小直接膨胀到了以“十亿、亿”为单位,为什么会存在如此大的数量级差别呢?我们在后文将会揭晓谜底。显然,在CLIP之后的多模态模型才是我们本文的重中之重,但是还请读者大人们耐心,我们在本章还是会介绍一两个在CLIP之前的多模态模型,因其能给我们一些非常有价值的启示。那么,先生们女生们,这边请~

ここに画像の説明を挿入

Fig 5.1 以CLIP为分界点前后的多模态模型以及采用的预训练数据。

图文模型

UNITER

通用图文表征学习(Universal Image-Text representation learning, UNITER)[57],笔者介绍该工作的原因,在于该工作引入了好几种图文语义融合的损失,而这些损失的优势、缺陷将带给我们启示。UNITER的模型框架如Fig 5.2所示,其输入的数据是一对配对的图文对,模型首先采用Faster RCNN网络对图片进行物体检测,将其中的物体特征(feature proposal)提取出,并作为上层语义融合模型的输入。对于文本端,则采用文本令牌化(Text tokenization)将文本转化为word embedding,同样作为Transformer的输入。此时Transformer的输入分为两大类,图片信息和文本信息。

ここに画像の説明を挿入

Fig 5.2 UNITER的模型框架,主要由Faster RCNN,文本令牌化和Transformer组成。

既然笔者认为UNITER中最重要的是多模态语义融合建模方式,那么主要介绍下在这篇文章中采用的loss。如Fig 5.3所示,UNITER主要采用的损失有:

そして、 v = { v 1 , ⋯ , v K } \mathbf{v}=\{v_1,\cdots,v_K\} を使用して、統一された数学的形式で表現しましょう。v={ v1vK} はKKを意味しますK 個の画像領域の特徴、w = { w 1 , ⋯ , w T } \mathbf{w}=\{w_1,\cdots,w_T\}w={ w1wT} はTTを意味しますT 個のテキスト トークン、m ∈ NM \mathbf{m}\in \mathbb{N}^{M}メートルNM はマスクされたインデックスを表します。

  1. マスクされた言語モデリング (MLM): この損失は図 5.3 (a) に示されており、そのアイデアはテキスト トークンをランダムにマスクし、画像情報と残りのテキスト情報を通じてマスクされたテキストを予測しようとすることです。損失は​​ (5-1) に示されます。ここで、w / m \mathbf{w}_{/ \mathbf{m}}w/ mm \mathbf{m}が削除されることを示しますmで表されるインデックスのテキストの後の残りのテキスト トークン
    LMLM ( θ ) = − E ( w , v ) 〜 D log ⁡ P θ ( wm ∣ w / m , v ) (5-1) \mathcal{L}_{MLM}(\theta) = -E_{( \mathbf{w}, \mathbf{v}) \sim D} \log P_{\theta}(\mathbf{w}_{\mathbf{m}}|\mathbf{w}_{/ \mathbf{m }},\mathbf{v}) \tag{5-1}LMLM _ _()=−E _( w , v ) Dログ_P( wメートルw/ mv )( 5-1 )

  2. 画像とテキストのマッチング (ITM): この損失は図 5.3 (b) に示されており、そのアイデアは、画像が一致するポジティブ サンプルと画像とテキストが一致しないネガティブ サンプルを構築することにより、意味融合のための 0/1 マッチング タスクを設計することです。の場合、損失は (5-2) に示されます。
    LITM ( θ ) = − E ( w , v ) 〜 D [ y log ⁡ s θ ( w , v ) + ( 1 − y ) log ⁡ ( 1 − s θ ( w , v ) ) ] (5-2) \mathcal{L}_{ITM}(\theta) = -E_{(\mathbf{w}, \mathbf{v})\sim D}[y\log s_{\theta}(\mathbf{w}, \mathbf{v})+(1-y)\log(1-s_{\theta}(\mathbf{w}, \mathbf{v})) ] \tag{5-2}LTM()=−E _( w , v ) D[ yログ_s( w v )+( 1y )ログ( 1 _s( w v ))](5-2)

  3. Masked Region Modeling—Masked Region Feature Regression (MRFR): 该损失如Fig 5.3 ©所示,公式如(5-3)所示,其思想是随机对图片块进行掩膜,通过尚未掩膜的图片和文本尝试对其进行预测,其中的ground truth为 r ( v m ( i ) ) r(\mathbf{v}_{\mathbf{m}}^{(i)}) r(vm(i)) ,是该掩膜掉的图片块的Faster RCNN对应的输出特征。
    f θ ( v m ∣ v / m , w ) = ∑ i = 1 M ∣ ∣ h θ ( v m ( i ) ) − r ( v m ( i ) ) ∣ ∣ 2 2 (5-3) f_{\theta}(\mathbf{v}_{\mathbf{m}}|\mathbf{v}_{/ \mathbf{m}}, \mathbf{w}) = \sum_{i=1}^{M} ||h_{\theta}(\mathbf{v}_{\mathbf{m}}^{(i)}) - r(\mathbf{v}_{\mathbf{m}}^{(i)})||_{2}^{2} \tag{5-3} fθ(vmv/m,w)=i = 1M∣∣ h( vメートル()r ( vメートル()) 22( 5-3 )

  4. マスク領域モデリング - マスク領域分類 (MRC): この損失は 3 に似ており、これも MRM モデリングですが、その回復ターゲットはもはや特徴ではなく、図 5.3 (d) や図 5.3 (d) などのマスク ターゲットのカテゴリです。式 (5 -4) は、クロスエントロピー損失によってモデル化されます。

f θ ( vm ∣ v / m , w ) = ∑ i = 1 MCE ( c ( vm ( i ) ) , g θ ( vm ( i ) ) ) (5-4) f_{\theta}(\mathbf{v }_{\mathbf{m}}|\mathbf{v}_{/ \mathbf{m}}, \mathbf{w}) = \sum_{i=1}^{M} \mathrm{CE}(c (\mathbf{v}_{\mathbf{m}}^{(i)}), g_{\theta}(\mathbf{v}_{\mathbf{m}}^{(i)})) \タグ{5-4}f( vメートルv/ m=i = 1MCE ( c ( vメートル()g( vメートル()))( 5-4 )

  1. マスク領域モデリング - マスク領域分類 - KL 発散 (MRC-kl): この損失は 4 に似ていますが、分類の目的はカテゴリではなく、そのカテゴリの確率分布であるため、損失モデリングは KL 発散を通じて実行されます。 。
    f θ ( vm ∣ v / m , w ) = ∑ i = 1 MDKL ( c ~ ( vm ( i ) ) ∣ ∣ g θ ( vm ( i ) ) ) (5-5) f_{\theta}(\mathbf {v}_{\mathbf{m}}|\mathbf{v}_{/ \mathbf{m}}, \mathbf{w}) = \sum_{i=1}^{M} D_{KL} ( \チルダ{c}(\mathbf{v}_{\mathbf{m}}^{(i)})||g_{\theta}(\mathbf{v}_{\mathbf{m}}^{( i)})) \tag{5-5}f( vメートルv/ m=i = 1MDKL _(c~ (vメートル()) ∣∣ g( vメートル()))( 5-5 )

ここに画像の説明を挿入

図 5.3 UNITER が採用するマルチモーダル意味融合モデリング手法。
これら 5 つの損失関数のうち、MLM 損失と ITM 損失のみに注目する必要がありますが、MLM 損失も ITM 損失も効率的かつ効果的なセマンティック アライメント モデリング手法ではないことがわかりました。次にそれらを個別に分析します。MLM の場合、理想的な条件下では、マスクされた視覚エンティティの限られた数だけが意味的に位置合わせできると仮定すると、1 回の反復 (反復) で一度にマスクできるのは画像内の視覚エンティティの一部のみです。そのため、この意味的整合学習の効率は非常に低くなります。MLM がビジュアル トークンの粒度で意味論的な調整を学習すると結論付けるのは難しくありません。

ITM の場合、この状況はより良いかもしれません。ITM は、画像とテキストが一致するかどうかを画像の粒度で判断するため、理想的な状況下では、画像に現れたすべての視覚概念を一度に揃えることができます。コントラスト損失については次の章で紹介しますが、コントラスト損失は、別の観点からより効率的なセマンティック アライメント モデリング手法を提供します。しかし、ITM と MLM にはまったくメリットがないのでしょうか? 必ずしもそうではなく、ITMやMLMのモデリング手法は、グラフィックスとテキストの間で十分な情報の相互作用を可能にする「組み合わせ」の特徴を持っているため、セマンティック融合により適したモデリング手法と言えます。図 5.4 を通して UNITER のアブレーション テスト結果を観察します。MLM と ITM に関連するテスト結果 (つまり、赤の点線で囲まれた部分) のみに注目します。ITM のテスト結果が優れていることがわかります。 MLM よりも優れており、ITM+MLM の方法は最初の 2 つだけの結果よりも優れています。先ほど分析したように、理解するのは難しくありません。ITM はセマンティック アライメントをモデル化する粒度として画像を使用します。これは MLM よりも効率的です。ITM+MLM は、セマンティック フュージョン機能を備えながら、より優れたセマンティック アライメント機能を取得できます。

ここに画像の説明を挿入

図 5.4 UNITER のアブレーション テスト結果。ここでは ITM テストと MLM テストの結果のみに焦点を当てます。

UNITER のモデリングと実験からどのような貴重な結論が得られるでしょうか? まず第一に、ITM も MLM も理想的なセマンティック アライメント モデリング手法ではなく、第 0x00 章で分析したように、効果的なセマンティック アライメントは意味融合の前提であり、セマンティック アライメントを直接スキップして意味融合をモデル化することは不合理です。第 2 に、MLM と ITM の使用はデータの「クリーンさ」に大きく依存します。ITM と MLM のモデリング手法は、画像またはテキスト内のマスクされたコンテンツがクロスモーダル情報を通じて復元できることを強く前提としているため、グラフィックデータは互換性があり、補完的である必要がありますこれは、データが十分にクリーンである必要があり、インターネットからのノイズの多いデータを大規模に使用できないことを意味します。これが、CLIP の前の作業で使用できる事前トレーニング データが 100 万レベルのみである理由を説明します。きれいにラベル付けされたデータはコストがかかりすぎるため、手動でラベル付けまたは確認する必要があります。こうした不具合はCLIP後の作業で多少なりとも軽減されるので、とても楽しみですよ~

ビジュアルモデル

ビデオBERT

この記事では、CLIP 以前のマルチモーダル モデルの作業についてはあまり紹介しませんが、ビジュアル テキスト モデルについては、著者は videoBERT [42] を追加します。videoBERT も Transformer モデルを使用してテキストと視覚情報をモデル化しますが、ここでは視覚入力は密なベクトルではなく、視覚情報をトークン化しようとします。視覚的トークン化の初期の試みとして、ここで使用される視覚的トークンは、階層的 K 平均法クラスタリングによって取得されたクラスター中心です。前述の BEiT シリーズ手法や VQ-VAE 手法と比較すると、このクラスタリングによるビジュアル トークンの取得方法は単純すぎてスケールアップが困難であり、スパースなビジュアル ワード テーブルを維持し、スパースなトークンを取得することが理想的です。 VQ-VAE と同様に、最近傍テーブル ルックアップを使用します。

videoBERT からの主なインスピレーションは、ビデオ情報が情報の冗長性が高いデータ形式であるということであり、そのセマンティック トークン化により、モデルのリソース要件を大幅に節約できるだけでなく、セマンティクスのモデリングにも重点を置くことができます。同時に、後ほど紹介する BEiT v3 で述べたように、ビジュアル スパース トークン化の形式でのマルチモーダル モデリングにより、これまで実行が困難であった多くのマルチモーダル事前トレーニングが可能になります。

ここに画像の説明を挿入

図 5.5 VideoBERT では、UNITER のような密なベクトルの代わりに視覚トークンが視覚モダリティの入力として使用されます。

0x05 CLIP 後: マルチモーダル情報の比較、融合モデリング

長い間待った後、琵琶を半分隠したまま出てきました。ついに、ついにこの章で私たちのCLIPが登場しました!Chapter 0x04 では、CLIP 以前のモデルに初めて出会い、その固有の欠陥のいくつかにも気づきました。これらの欠陥は CLIP のリリース後は多かれ少なかれ緩和されているため、すぐに本題に進みましょう。

グラフィックモデル

クリップ

Contrastive Language-Image Pretraining (CLIP) [15] は画期的な研究であり、CLIP の立ち上げ以降、マルチモーダルな研究パラダイムは大きく変化したため、本稿のヒントは CLIP を境界点として捉え、本章はCLIP以降の作品紹介です。CLIPの次に作品を紹介する必要があるため、CLIP自体に専用の書籍が必要になるのは必然ですが、本項ではCLIPについて紹介していきます。

CLIP自体のモデル構成は特筆すべきものはなく、古典的な2塔構造を採用しており、画像領域とテキスト領域で異なる画像エンコーダ(Image Encoder)とテキストエンコーダ(Text Encoder)を備えている。その中で、テキスト エンコーダは古典的な Transformer 構造を採用し、画像エンコーダは 2 つのタイプを採用しています。1 つは改良された ResNet で、著者は ResNet のグローバル プーリング層を置き換えるためにアテンションベースのプーリング層を使用することを選択しました。ここではアテンションの機構もTransformerと同様にマルチヘッドQKVに注目しており、著者も実験用の2番目の画像エンコーダとしてViT構造を使用しています。本稿ではf Text ( ⋅ ) f_{\mathrm{Text}}(\cdot)fテキスト( )はテキスト エンコーダf I mg ( ⋅ ) f_{\mathrm{Img}}(\cdot) をf画像( )は画像エンコーダを表します。x I mg ∈ RN × H × W × C \mathbf{x}_{Img} \in \mathbb{R}^{N \times H \times W \times C}バツ_RN × H × W × Cは画像のバッチを表し、x T ext ∈ RN × S \mathbf{x}_{\mathrm{Text}} \in \mathbb{R}^{N \times S}バツテキストRN × Sは 1 つのバッチのテキストを表します、那么有:
fimg = f I mg ( x I mg ) ∈ RN × D iftext = f T ext ( x T ext ) ∈ RN × D t (6-1) \begin{aligned } \mathbf{f}_{\mathrm{img}} &= f_{\mathrm{Img}}(\mathbf{x}_{Img}) \in \mathbb{R}^{N \times D_{i }} \\ \mathbf{f}_{\mathrm{text}} &= f_{\mathrm{Text}}(\mathbf{x}_{Text}) \in \mathbb{R}^{N \times D_{t}} \end{整列} \tag{6-1}f画像fテキスト=f画像( ×_RN × D私は=fテキスト( ×テキスト_ _ _RN × D( 6-1 )

画像特徴量fimg \mathbf{f}_{\mathrm{img}} は線形マッピング層を通過しますf画像およびテキスト機能ftext \mathbf{f}_{\mathrm{text}}fテキスト両方とも同じ埋め込み特徴次元D e D_{e}にマッピングされますD注:
fimge = fimg W img ∈ RN × D eftext = ftext W text ∈ RN × D e (6-2) \begin{aligned} \mathbf{f}_{\mathrm{img}}^{e} &= \mathbf{f}_{\mathrm{img}} \mathbf{W}_{\mathrm{img}} \in \mathbb{R}^{N \times D_{e}}\\\mathbf{ f} _{\mathb{text}}^{e} &= \mathbf{f}_{\mathb{text}} \mathbf{W}_{\mathb{text}} \in \mathbb{R}^ {N \times D_{e}} \end{整列} \tag{6-2}f画像f文章=f画像W画像RN × D=fテキストWテキストRN × D( 6-2 )

グラフィックスとテキストの 2 つのモードの数値スケールの一貫性を確保するために、上記でも紹介した (6-3) に示すように、L2 標準化が実行されます。
GL 2 ( x ) = xi ∑ i D xi 2 (6-3) G_{L2}(\mathbf{x}) = \dfrac{\mathbf{x}_i}{\sqrt{\sum_{i}^{ D}\mathbf{x}_i^2}} \tag{6-3}GL2_ _( × )=Dバツ2 バツ私は( 6-3 )
デフォルトを指定します
fimgnorm = GL 2 ( fimg ) ftextnorm = GL 2 ( ftext ) (6-4) \begin{aligned} \mathbf{f}^{\mathrm{norm}}_{ \mathrm{ img}} &= G_{L2}(\mathbf{f}_{\mathrm{img}}) \\ \mathbf{f}^{\mathrm{norm}}_{\mathrm{text}} &= G_ {L2}(\mathbf{f}_{\mathrm{text}}) \end{整列} \tag{6-4}f画像標準f文章標準=GL2_ _( f画像=GL2_ _( fテキスト)( 6-4 )
このとき、図 6.1 に示すように、画像埋め込み特徴量とテキスト埋め込み特徴量に対して行列乗算が行われます。次に、形成されたスコアリング マトリックス上で、ペアのポジティブ サンプルが対角線上でスコアリングされ、マトリックスの他の要素は同じバッチ内の写真とペアになっていないテキスト (またはその逆) で構成されるネガティブ サンプルになります。この戦略は、N 2 − NN^2-NN2N 個のネガティブサンプル。全体のプロセスは式 (6-5) で説明できます。
M = ( fimgnorm ) ( ftextnorm ) T ∈ RN × N (6-5) \mathbf{M} = (\mathbf{f}^{\mathrm{norm}}_{\mathrm{img}}) (\mathbf {f}^{\mathrm{norm}}_{\mathrm{text}})^{\mathrm{T}} \in \mathbb{R}^{N \times N} \tag{6-5}M=( f画像標準) ( f文章標準TRN × N( 6-5 )
次に必要なのはM \mathbf{M}Mの各行と列はクロス エントロピー損失 (それぞれI2T losssumT2I loss) を計算し、合計して合計損失を形成します。式 (6-6) に示すように、ここでのクロスエントロピー損失は温度係数τ \tauτ,这能有效地缓解在超大batch size情况下的学习收敛问题,具体见[29],式子中的 q ⋅ k + q \cdot k_{+} qk+表示正样本打分,而 q ⋅ k i q \cdot k_{i} qki表示当前batch下所有样本打分。其中每一行可以视为是同个图片,与同个batch内其他所有样本对的文本进行组合构成的负样本对形成的损失,而每一列自然就是同个文本,对于每个图片进行组合而构成的损失了。整个过程如下面的伪代码所示。
L q = − log ⁡ exp ⁡ ( q ⋅ k + / τ ) ∑ i = 0 N exp ⁡ ( q ⋅ k i / τ ) (6-6) \mathcal{L}_{q} = -\log \dfrac{\exp(q \cdot k_{+} /\tau)}{\sum_{i=0}^{N} \exp(q \cdot k_{i} / \tau)} \tag{6-6} Lq=logi=0Nexp(qki/τ)exp(qk+/τ)(6-6)

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter
# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]
# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)
# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

ここに画像の説明を挿入

Fig 6.1 CLIP的模型框架示意图,由文本编码器和图片编码器共同组成。

CLIP のモデル構造と陽性サンプルと陰性サンプルの合成戦略は複雑ではなく、陰性サンプルの合成方法は古典的なバッチネガティブ法、つまりバッチの内部から陰性サンプルが形成される方法です。インターネットからの大量のデータを使用でき、画像とテキストのペア データ (約 4 億の画像とテキストのペア) と超大規模なバッチ サイズ (約 32,000) が事前に学習されており、完全に学習できるようにするために、大容量モデル構造を採用。CLIP のこの「単純な」学習方法がなぜ効果的にセマンティック アライメントを実行できるのでしょうか? 図 6.2 に示すように、比較では、陽性サンプルを多数の陰性サンプルと比較できます。この比較には 2 つの側面があります。

  1. 図とテキストの比較: 画像は一致するテキスト (肯定的なサンプル) に対応し、N − 1 N-1N1 つの不一致テキスト (ネガティブ サンプル)。現時点では、ポジティブ サンプルとネガティブ サンプルを比較することで、さまざまなテキストの視覚的な意味の一致を完全に明確にすることができます。図 6.2 に示すように、最初の行を肯定的なサンプルとみなした場合、テキスト内の「子犬、子犬、子犬」はすべて肯定的なサンプルの写真と一致し、否定的なサンプルのテキスト「子猫」は一致します。サンプル写真はネガティブではありません。したがって、「子犬、子犬」と「子猫」の意味上の違いが一度に明確になります。ネガティブサンプルが十分に大きければ、1 回の反復プロセスで多くのテキストの視覚的概念を明確にすることができます。 MLMとITMはできません。
  2. テキストと画像の比較: 画像とテキストの比較と同様に、テキストは一致する画像 (陽性サンプル) に対応し、N − 1 N-1N1 つの一致しない画像 (ネガティブ サンプル) と、ポジティブ サンプルとネガティブ サンプルの同じ比較により、異なる画像間の視覚的な意味の一致を明確にすることができます。また、最初の行を肯定的なサンプルとして取り上げると、テキスト内の「子犬、子犬、子犬」という単語は画像の最初の行とのみ一致し、他の画像と効果的に一致することはできません。そのため、次の場所にある多くの画像で明確にすることができます。かつてのビジュアルコンセプト。

由此分析我们不难知道,CLIP的对比学习建模方式和上文介绍到的ITM和MLM方式的本质不同,在CLIP中通过扩大负样本数量,可以以非常高的效率提高语义对齐的能力,而由于采用了双塔结构,模型只需要对 N N N个图片和 N N N个文本进行特征向量计算,最后汇聚起来后进行打分矩阵的计算,如Fig 6.1所示,这个模型计算复杂度是 O ( N ) \mathcal{O}(N) O(N)的,而如果需要通过类似ITM的方式实现类似的对比,由于单塔交互模型的限制, 那么模型计算复杂度将会飙升到 O ( N 2 ) \mathcal{O}(N^2) O(N2),这是不能接受的。同样以图片为粒度进行语义对齐的ITM损失尚不能比肩其效率,以视觉块为粒度建模的MLM就更不用说了。

ここに画像の説明を挿入

Fig 6.2 CLIP的对比学习方式,使得能够在一次对比过程中,有效厘清正样本和负样本中的视觉语义概念。

batch size上記の分析から、CLIP の効率的なセマンティック アラインメント機能は多数のネガティブ サンプルに依存し、ネガティブ サンプルの数はネガティブ サンプルのサイズと連動していることをall_gather知るのは難しくありません。フレームワークの分散通信機能を通じて、この記事で簡単に紹介します。all_gather異なる GPU からのベクトルを集約することが可能です.torch.distributed.all_gather詳細については [58] を参照してください. このプロセスは異なる GPU に勾配を伝播しないことに注意してください. 勾配はローカル マシンからのみ取得できます. 詳細については [59] を参照してください. 図 6.3 (a) に示すように、プロセス全体は、各 GPU のサイズがNNall_gatherであると仮定して、さまざまな GPU からベクトルを収集します。batch sizeN、合計KKK個のGPU の場合、合計KN KNbatch sizeと見なすことができます。K Nただし、all_gatherメカニズム自体はネイティブNNN個のサンプルには勾配があり、その他( K − 1 ) N (K-1)N( K1 ) N個のサンプルは、比較に参加するための定数としてのみみなすことができます。図 6.3 (b) に示すように、対角線上のブロックのサンプルのみが勾配を持ち、これらのサンプルはすべて各 GPU のネイティブ ベクトルです。

ここに画像の説明を挿入

図 6.3 all_gather の概略図。all_gather はさまざまな GPU からベクトルを収集します。

CLIP的贡献点除了超大batch size的应用外,另外是采用了海量的互联网带噪图文数据,而不是人工精心标注的数据,我们得了解其是如何进行数据采集的。作者在英语维基百科上采集了50万个基础词,这些词都是出现过起码100次的高频词汇,同时在互联网尽可能地采集了大量的图文对数据,通过判断文本中的词汇是否在这50万基础词中进行数据的筛选,同时进行了数据的平衡,使得每个基础词上大概有2万个图文对。最终收集得到了4亿个图文对。我们不难发现这个过程由于对基础词的频次进行了筛选,因此都是一些高频的视觉概念才得以收集。

对于笔者而言,CLIP最为震撼的是其zero-shot能力和few-shot能力,其zero-shot性能甚至在某些场景能超越监督训练后的resnet50,真是让人震惊。而且,对于搜索场景而言,本身就容易受到长尾分布的影响,海量样本无法通过人工进行细致标注,强大的zero-shot和few-shot能力在搜索场景中将发挥重要的作用。我们进一步观察CLIP是如何去进行zero-shot任务的。如Fig 6.4所示,考虑到大部分的数据集的标签都是以单词的形式存在的,比如“bird”,“cat”等等,然而在预训练阶段的文本描述大多都是某个短句,为了填补这种数据分布上的差别,作者考虑用“指示上下文”(guide context)对标签进行扩展9。以Fig 6.4为例子,可以用a photo of a <LABEL>.作为文本端的输入,其中的<LABEL>恰恰是需要预测的zero-shot标签。在预测阶段,以分类任务为例子,对所有可能的分类类别文本对<LABEL>进行替代,得到一个CLIP的图文打分,然后将其中最高打分作为最终的预测类别。

ここに画像の説明を挿入

Fig 6.4 CLIP的zero-shot测试流程,通过prompt的方式进行zero-shot的测试。

基于这种评估方式,以分类任务为例子,其zero-shot与强监督模型的对比结果见Fig 6.5 (b),对比的模型是强监督的resnet50(在linear probe的评估下[60]),我们发现其在一些数据集上其zero-shot能力甚至能比肩/超过强监督模型。CLIP的zero-shot和few-shot与其他模型的zero-shot/few-shot对比见Fig 6.5 (a),我们发现几个结论:

  1. zero-shot CLIP已经能够比肩16 shot的BiT-M了。
  2. few-shot CLIP性能远超其他few-shot模型。
  3. zero-shot CLIP能够比肩4 shot CLIP,这说明了提供了少量的样本(<4)就对CLIP模型进行finetune可能并不是一个好的做法,有可能会打乱模型在预训练阶段的语义对齐结果,从而影响其泛化性能。

ここに画像の説明を挿入

Fig 6.5 (a) CLIP的few-shot与其他模型的few-shot能力对比;(b) zero-shot CLIP与强监督下的resnet50(linear probe方式下)的对比。

当然,CLIP的论文原文是一个长达40多页的超长论文,里面有着非常详尽的试验分析,在此就不展开了,有兴趣的读者不妨去原文一睹CLIP的风采。总结来看,我们以下归结下CLIP的优点和缺陷,是的,CLIP即便有着革命性的成就,同样也是有缺陷的,而对这些缺陷的改进则引出了后续的一系列工作。

CLIP为什么惊艳?

  1. 在zero-shot和few-shot任务中的极致性能。
  2. 能够利用互联网中的海量带噪声数据,避免了对人工标注数据的依赖。
  3. 大规模对比学习能够实现良好的跨模态语义对齐。

CLIP的缺陷?

  1. 粗粒度的图片与文本打分,无法建模细粒度的视觉信息:在CLIP中是采用图片粒度与文本粒度进行匹配,形成图文粒度的打分的,在这种粒度下,理论上我们无法对文本和图片中的细粒度语义进行建模。
  2. 意味融合の実現が難しい:CLIPの学習手法は主に意味のアラインメントに焦点を当てていますが、意味融合を行うのは困難です。たとえば、データセットには「ソファの上の猫」、「床の上の猫」、「カーペットの上の猫」の写真が含まれる可能性がありますが、「頭の上の猫」の写真はほとんど見られません。はセマンティック融合によってのみ解決できますが、CLIP はスパースな構成セマンティクスをモデル化することが困難です。
  3. 高頻度の視覚的意味概念に注目する: CLIP では対象語彙が高頻度でスクリーニングされているため、取得された視覚概念は高頻度の意味概念の一部であると考えられます。
  4. 英語コーパスに焦点を当てる: データは主に英語コミュニティからクロールされるため、多言語、特に中国語の期待が欠けています。
  5. トレーニングに大量の GPU リソースが必要: CLIP はバッチ サイズを増やすことで負のサンプルの数を増やしますが、バッチ サイズを増やすには分散トレーニングのメカニズムが必要になるため、all_gatherバッチ サイズを増やすには大量の GPU リソースが必要です。負のサンプルの数を増やすには、リソースの制約により、負のサンプルの数をさらに増やす可能性が明らかに制限されます。

CLIP のこれらの長所と短所は、フォローアップにおける一連の素晴らしいマルチモーダル作業に影響を与えました。まず休憩を取り、その後マルチモーダルの旅を続けましょう。

整列

ALIGN: 大規模な画像とノイズのあるテキストの埋め込み機能 (ALIGN: 大規模な画像とノイズのあるテキストの埋め込み) [17] CLIP に基づいて、この研究では使用される事前トレーニング データに対してより緩やかな制約が課されます。事前トレーニング トレーニング データの規模は、驚異的な 18 億レベルに達しました。ALIGN では、作成者は高頻度セマンティクスの条件を制限しなくなり、インターネットから可能な限り画像とテキストのペアのデータをクロールし、非常に単純なデータ フィルタリング方法のみを使用します。このタイプのデータ フィルタリングには次のものが含まれます。

  1. サイズが小さすぎる画像 (通常は意味のない画像) をフィルターします。
  2. 通常は意味のない短すぎるテキストをフィルターします。
  3. 撮影時刻などの自動生成されたテキストを削除します。

この研究では、自然データセットの指標は CLIP よりも優れています (そうしないと論文が出版されません、右:P) が、著者は結果分析の部分にもっと注意を払う必要があると考えており、著者は次のことを実行しました。セマンティックな調整結果を視覚化するためにいくつかの実験を行いました。図 6.6 に示すように、グラフx \mathbf{x}が与えられた場合、(ab) の実験設定は次のようになります。x 、その ALIGN モデルの画像タワー特徴 f ( x ) ∈ RD f(\mathbf{x}) \in \mathbb{R}^{D}f ( x )RD、テキストt \mathbf{t}t (「青」、「紫」など)、 ALIGN モデルのテキスト タワー特徴 g ( t ) ∈ RD g(\mathbf{t}) \in \mathbb{R}^{D} は次のようになります。も得られるg ( t )RD._ _ 次に、特定の画像とターゲット テキストについて、その属性を「編集」できます。ここでの編集は、テキストの説明を通じて画像内の属性の追加 (「+」) または削除 (「-」) に反映されます。方法は、画像タワー特徴量を使用してテキストタワー特徴量を減算/加算することです10。つまりf ( x ) − g ( t ) ∈ RD 、 f ( x ) + g ( t ) ∈ RD f(\mathbf{x} )-g(\mathbf{t})\in \mathbb{R}^{D}, f(\mathbf{x})+g(\mathbf{t})\in \mathbb{R}^{D}f ( x )g ( t )RDf ( x )+g ( t )RD を取得し、追加および減算された特徴を使用してイメージ ライブラリで最近傍検索を実行し、最終的なイメージを取得します。図 6.6 (a) に示すように、バラの色を変えることができますが、0x00 章で紹介した基本的な視覚要素を思い出してみると、これは実際には「属性」の調整能力であることがわかります。それだけでなく、図 6.6 (a) の 3 番目の例では、「距離から」などの「関係」(Relation) の概念を認識することができ、「関係」をモデル化する意味的整合能力が証明されています。図 6.6(b) の例を見ると、視覚的属性と視覚的関係を調整できるだけでなく、「視覚的実体」の概念も調整できることがわかります。そうでなければ、画像から「花」を削除することはできません。レスポンスを生成するために「バラ」などを追加するように編集しました。したがって、図 6.6 (a)(b) の実験は、大規模対照学習モデルの強力な意味論的整合能力を実際に直観的に示しています。

それだけでなく、図 6.6 ©(d) の実験も見ました。この 2 つの実験は、固定テキストに「詳細」や「キャンバス上」などの属性を追加して画像を取得するものです。この実験設定は、実験よりも簡単です。前者。ALIGN モデルは、視覚的なエンティティ、属性、および関係を調整することに加えて、描画スタイル (「白黒」)、きめ細かい視覚的セマンティクスなど、より複雑な視覚的セマンティクスをモデル化する機能を備えていると思われることを見つけるのは難しくありません。遠近法 (「下から見る」、「上から見る」...)、この能力は基本的な意味概念の組み合わせである可能性があります。たとえば、白黒の絵画スタイルは「黒」という基本的な視覚的属性の組み合わせに分割できます。 +白」と書かれていますが、著者はそれが正しいと今でも思っています。きめ細かい遠近関係がこれほど優れた認識能力を持っていることは本当に驚くべきことです。おそらく、基本的な視覚概念の組み合わせが、実際には複雑な視覚意味論の認識の基礎なのでしょうか?

ここに画像の説明を挿入

図 6.6 ALIGN 画像とテキストの位置合わせ結果の視覚化。

フィリップ

大規模対照学習モデルの強力な意味的整合能力に驚嘆した後は、CLIP にはないきめ細かいモデリング能力 (細粒度) を振り返ってみましょう。CLIP にこの機能がない理由は、すでに著者が分析済みです。この機能がないと、CLIP は画像とテキストの類似度を計算するときに、テキストと画像を 1 つのベクトルに直接圧縮します。それが 1 つのベクトルに圧縮されず、複数のベクトルに圧縮されたらどうなるでしょうか? 実際、これは CLIP の粗粒度モデリングを軽減する最も直接的な方法であり、まさに FILIP (細粒度インタラクティブ言語イメージ事前学習) のアイデアです [39]。

以前のブログ投稿 [61] で、画像とテキストのタワーのマッチングでは、画像のタワーのベクトルを事前に更新する必要があるため、長い尾や小さな形状を持つ一部のオブジェクトがトレーニング プロセス中に無視される可能性があることについて説明しました。そのため、画像とテキストを照合する際の詳細な照合機能が不足します。この問題を解決するには、画像やテキストとオンラインで対話する機能をモデルに提供し、画像から各領域の情報を何らかの形式で抽出する必要があります (ROI 検出器は各 ROI 領域を検出するか、単純にパッチを分割します) 、ViT と同様)、テキストと画像の各領域を操作して、モデルが画像内の詳細な情報をマイニングできるようにします。最初の方法を例にとると、図 6.7 に示すように、ROI 検出器を使用して最初に写真の ROI 領域を抽出すると、赤枠で示すように、「小さな黄色い男」というテキストのオンライン マッチングが行われます。黄色のテーブル上」が実行されます。つまり、シーン内のミニオンのきめ細かいマッチングが実現されます。

ここに画像の説明を挿入

図 6.7 ROI Detector の方法で画像内の ROI 領域を抽出し、テキストと ROI 領域間のオンライン インタラクション (オンライン マッチング) を通じて、きめ細かい画像とテキストのマッチングの目的を達成できます。

もちろん、この前提条件は、十分に優れた ROI 検出器があり、その計算の複雑さも非常に高価であるため、画像検索などのオンライン アプリケーションにとっては比較的大きな負担となります。FILIP は、オンライン インタラクションを実現するために、より直接的でスマートな方法を使用しています。この方法は「Late Interaction (Late Interaction)」であり、パイプラインのフロントエンドの結果を更新できるように、インタラクティブな操作を可能な限り後方に移動しようとします。 . オンラインでのやり取りのコストを削減します。

図 6.8 に示すように、FILIP の画像エンコーダは ViT であり、入力画像を単純にブロック分割した後、線形マッピングして Transformer に入力し、出力は各 Image Patch に対応する Embedding ベクトルになります。 Transformer を使用し、出力は各トークンの埋め込みです。If x I x^IバツI は画像サンプルを表し、x T x^TバツT はテキストサンプルを表し、xi I x_i^Iバツバッチ内の画像の2 番目のiiを示しますiサンプル、xi T x_i^TバツTバッチ内のテキストのiiを表しますiサンプル、同じ添え字{ xi I , xi T } \{x_i^I, x_i^T\}{ ×バツTこれは正のサンプルのペアであり、異なる添え字{ xi I , xj T } \{x_i^I, x_j^T\} を持つサンプルのペアであると{ ×バツjT}を負のサンプルのペアとみなします。f θ ( ⋅ ) f_{\theta}(\cdot)とするとf( )は画像エンコーダg ϕ ( ⋅ ) g_{\phi}(\cdot)gϕ( )はテキスト エンコーダを表します。CLIPがない2 タワー マッチング モデルiiJJj個のサンプル間の類似性は次のように定義されます。
si , j I = si , j T = f θ ( xi I ) T g ϕ ( xj T ) (6-7) s_{i,j}^I = s_{i , j}^T = f_{\theta}(x_i^I)^{\mathrm{T}} g_{\phi}(x_j^{T}) \tag{6-7}sj=sjT=f( ×Tg _ϕ( ×jT( 6-7 )
その中f θ ( xi I ) ∈ R d , g ϕ ( xj T ) ∈ R d f_{\theta}(x_i^I) \in \mathbb{R}^{d}, g_{\ファイ}(x_j^{T}) \in \mathbb{R}^{d}f( ×Rdgϕ( ×jTRd、画像エンコーダであってもテキスト エンコーダであっても、同じ画像/テキストに対して 1 つの特徴ベクトルのみが生成され、そのグラフィック類似度はコサイン類似度を計算することによって計算されます。これは明らかにグローバル (Global) 類似度計算です。FILIP では、ViT と Text Transformer を使用して、n 1 n_1と仮定して、各画像トークンとテキスト トークン (各モダリティのきめ細かいローカル情報と考えることができます) の「排他的な」埋め込みを生成できます。n1そしてn 2 n_2n2iiですiピクチャ サンプルとjjthj個のテキスト サンプルのトークンの数、f θ ( xi I ) ∈ R n 1 × d 、 g ϕ ( xj T ) ∈ R n 2 × d f_{\theta}(x_i^I) \in \mathbb{ R}^{n_1 \times d}, g_{\phi}(x_j^{T}) \in \mathbb{R}^{n_2 \times d}f( ×Rn1× dgϕ( ×jTRn2× d . iiをどのように計算するかJJj個のサンプル間の類似性はどうでしょうかこのとき、遅いインタラクション反映されますiの写真kk 番目k 個のトークンについて、それらの合計jjj個のテキスト サンプルn 2 n_2n2トークン間の類似度を判定し、最も類似度の高いスコアをiiとして選択します私はkkの絵を描いていますk個のトークンの代表をスコアリングするこの方法を、著者は「トークンごとの最大類似度」と呼んでいます。
max ⁡ 0 ≤ r < n 2 [ f θ ( xi I ) ] k T [ g ϕ ( xi T ) ] r (6-8) \max_{0 \leq r \lt n_2} [f_{\theta}( x_i^I)]_k^{\mathrm{T}} [g_{\phi}(x_i^T)]_r \tag{6-8}0 r < n2マックス[ f( ×) ]kT[ gϕ( ×T) ]r( 6-8 )

もちろん、画像サンプルiiに関する限り、これはkk 番目k個のトークンの最大類似性スコア。n1 n_1n1画像トークンなので、これはn 1 n_1n1最大類似性スコアの平均を計算します。
si , j I (xi I , xj T ) = 1 n 1 ∑ k = 1 n 1 [ f θ ( xi I ) ] k T [ g ϕ ( xi T ) ] mk I (6-9) s_{i, j}^I(x_i^I,x_j^T) = \dfrac{1}{n_1} \sum_{k=1}^{n_1} [f_{\theta}(x_i^I)]_k^{\mathrm {T}} [g_{\phi}(x_i^T)]_{m_{k}^{I}} \tag{6-9}sj( ×バツjT=n11k = 1n1[ f( ×) ]kT[ gϕ( ×T) ]メートルk( 6-9 )
ここで、mk I m_{k}^Iメートルk最大の類似性のインデックス、つまりmk I = arg ⁡ max ⁡ 0 ≤ r < n 2 [ f θ ( xi I ) ] k T [ g ϕ ( xi T ) ] r m_k^I = \arg\ を特定します。 max_{0\leq r \lt n_2} [f_{\theta}(x_i^I)]_k^{\mathrm{T}} [g_{\phi}(x_i^T)]_rメートルk=arg _最大0 r < n2[ f( ×) ]kT[ gϕ( ×T) ]r、式 (6-9) は絵文字側の類似性尺度です。同様に、類似性尺度si , j T ( xi T , xj I ) s_{i,j }^T(x_i^) も定義できます。 T,x_j^I)sjT( ×Tバツj)。 注意してくださいsi , j I ( xi I , xj T ) s_{i,j}^I(x_i^I,x_j^T)sj( ×バツjT)不定等以下si , j T ( xi T , xj I ) s_{i,j}^T(x_i^T,x_j^I)sjT( ×Tバツj)、つまり、最大類似度に基づくインタラクションの場合、クロスモーダル類似度は必ずしも対称的ではなく、これは CLIP とは異なります。

ここに画像の説明を挿入

図 6.8 FILIP のブロック図は、クロスモーダル遅延インタラクションを採用した後、より詳細なマッチングを実行できることを示しています。
別のモーダルに対する各モーダル トークンの最大の類似性を見つけるこの方法は、マッチングに ROI 法を使用せず、画像パッチとテキストを使用する点を除いて、実際には図 6.7 の対話型メソッドに似ていることがわかりました。図 6.9 に示すように、トークンを順番に処理することで、明らかに、この方法ではきめの細かいグラフィックとテキストのマッチングも実現できます。オンラインで申請する場合は、各写真の特徴を更新してポジティブデータベースに保存する必要があり、特徴をブラッシングする場合は、写真の各パッチの特徴をディスク上に配置して使用できるようにする必要がありますオンラインでやり取りするとき。式(6-9)に示すように、$s_{i,j}^T(x_i^T,x_j^I)$ と $s_{i,j}^I(x_i^I, x_j^T)$ は、そして平均を最終的な類似度として取得します (クエリ画像検索アプリケーションは $s_{i,j}^T(x_i^T,x_j^I)$ を直接使用できます)。明らかに、$n_1$ イメージ パッチ フィーチャを最前列ライブラリに転送する必要があるため、非常に多くの最前列ストレ​​ージ リソースが必要であり、実際の着陸プロセスでは特定の問題が発生する可能性があり、エンジニアリングの最適化が必要です。必須。

ここに画像の説明を挿入

図 6.9 画像とテキストをブロック (テキストの場合は単語セグメンテーション、画像の場合はパッチ) に分割することにより、インタラクションの後期段階で使用されるトークンごとの最大類似度マッチングは、きめの細かいマッチングを実現できます。

次に、FILIP の詳細な結果を視覚的に観察しました。著者は、プロンプト学習手法を採用し、データ セットに合わせてプロンプト テンプレートを最適化しました。この記事は展開しません。論文の中で、著者は、図 6.10 に示すように、画像とテキストの詳細なマッチングの結果を視覚化しました。ラベルは、「風船」、「救命ボート」、「小さな白い蝶」)、「電気イオコモティブ (電気)」です。機関車)」、ラベルの後ろの数字は、ラベル テンプレート内のラベルの特定の単語の位置を示します。たとえば、ここでのテンプレートは次のとおりです

ラベル テンプレート: {label} の写真

ラベルが「小さな白い蝶」の場合、ラベルテンプレートは「小さな白い蝶の写真」で、小がテンプレートの5番目、白が6番目、蝶が7番目になります。上で説明したインタラクション方法に従って、各画像パッチとラベル テンプレート単語間の類似度一致が最大となるテンプレート位置 ID を見つけ、これらの位置 ID の中からラベル位置の位置 ID を強調表示して、結果を導き出します。図6.10に示します。これらのラベル オブジェクトの一部は非常に粒度が細かいことがわかります。たとえば、元の画像内のバルーンの視覚的な割合は非常に小さいです。CLIP の結果は私たちの期待と一致しており、そのような細かい粒度に対する応答はありません。粒状のオブジェクトはまったくありません。FILIPの結果は図のパッチ内の吹き出し部分に対応できます。FILIP は細粒度のオブジェクトだけでなく、大きなオブジェクトにも効果を発揮し、図 6.10 © に示すように、蝶が画面の半分以上を占めています。このとき、FILIP のマッチング効果は、 CLIPを超える。

ここに画像の説明を挿入

図 6.10 CLIP の結果を比較すると、FILIP の方が画像とテキストのきめ細かいマッチングに優れていることがわかります。

ウェン・ラン

CLIP を紹介するセクションでは、ネガティブ サンプルの数を増やすことで対比学習の効率を効果的に向上できることをすでに知っています。ただし、CLIP であれ ALIGN であれ、これらの方法はすべて表 2.2 で述べたエンドツーエンドの方法であり、ネガティブ サンプルの数が結合され、改善のコストは貴重なハードウェア リソースになりbatch sizeますbatch sizebatch size陰性サンプルの数から切り離すのか? batch size実際、同様の状況を第 0x01 章で紹介しました。MoCoは、ネガティブ サンプル キューとモメンタム更新エンコーダーを維持することで、ネガティブ サンプルの数から切り離す方法です。

WenLan [18] はそのような手法であり, グラフィックマルチモーダルモデルにおける MoCo の拡張とみなすことができる. グラフィックマルチモーダルモデルには画像とテキストの 2 つのモードがあるため, 両方のモードを独立して維持する必要がある. 1 つのネガティブサンプルキュー,したがって、2 つのネガティブ サンプル キューがあります。そして、MoCo では、クエリ エンコーダのみが勾配更新用であり、キー エンコーダが運動量更新用であるため、マルチモーダル モデルでは 2 つのモーダル エンコーダがありImage EncoderText Encoderクエリ エンコーダとして機能する人が勾配更新を実行し、誰が実行すべきかが決まります。勢いを更新するためのキーエンコーダーとして機能しますか? 答えは、WenLan には 2 セットのクエリ キー エンコーダがあるということです。最初のエンコーダ セットでは、画像エンコーダがクエリ エンコーダとして機能し、テキスト エンコーダがキー エンコーダとして機能します。2 番目のエンコーダ セットでは、テキスト エンコーダはキー エンコーダとして機能し、エンコーダはクエリ エンコーダとして機能し、画像エンコーダはキー エンコーダとして機能します。

ブロック図を使ってプロセス全体を詳しく説明しましょう。エンコーダf I 、 fm T f^{I}、f^{T}_m のいずれかを使用します。f私はfメートルT例として、図 6.11 上段に示すように、画像とテキストのバッチサイズをMMとすると、_ ここで、QT ∈ RD × KQ^T\in\mathbb{R}^{D \times K}QTRD × Kは負のサンプル キュー、KKKはキューのサイズ、DDD はフィーチャの寸法です。z I ∈ RM × D z^{I}\in\mathbb{R}^{M\times D}zRM × Dはf I f^I後の写真ですfIエンコーダ (クエリ エンコーダ) の後の特徴出力、z T ∈ RM × D z^T\in\mathbb{R}^{M \times D}zTRM × Dはfm T f^T_{m}の後の対応するテキストですfメートルTエンコーダー(ここではキーエンコーダー)の後の出力を特徴とします。演算子⨂ \bigotimesを定義します
a ⨂ b = ∑ j ( a ⋅ b ) ij ∈ RM × 1 a ∈ RM × D , b ∈ RM × D (6.10) a \bigotimes b = \sum_{j} (a \cdot b)_{ij} \in\mathbb{R}^{M\times 1}\\ a \in\mathbb{R}^{M\times D}, b\in\mathbb{R}^{M\ D 倍} \tag{6.10}あるb=j( _b )イジRM × 1あるRM × DbRM × D( 6.10 )

z I ⨂ z T z^I \bigotimes z^T であることがわかります。zzTは陽性サンプルをスコアリングします。ここで、a ⋅ b ∈ RM × D a \cdot b \in \mathbb{R}^{M \times D}あるbRM × Delement-wise乗算で、最後に現在の入力MMM個のサンプルが陽性サンプルとしてスコア付けされ、計算コードはコード 6.1 に示されており、z I ⋅ QT z^I \cdot Q^TzQT是利用负样本队列 Q T Q^T QT进行负样本打分。最后在最后一个axis进行拼接后,得到了正负样本打分 S I 2 T ∈ R M × ( 1 + K ) \mathbf{S}_{I2T}\in\mathbb{R}^{M \times (1+K)} SI2TRM×(1+K) ,其中第一维为正样本打分,其余的 K K K维为负样本打分。随后即可通过交叉熵损失进行计算损失,得到 L I 2 T \mathcal{L}_{I2T} LI2T。完成损失计算后,对Key编码器计算得到的特征进行负样本队列入队,以达到更新负样本队列的目的。注意,此处在具体实现过程中,需要对所有GPU中的 z T z^T zT进行汇聚(all gather),代码可以参考MoCo的实现[63]。

Code 6.1 正样本打分和负样本打分计算代码。
l_pos = torch.einsum('nc,nc->n', [zI, zT]).unsqueeze(-1) # 一个batch中的M个正样本打分计算,大小为M x 1
l_neg = torch.einsum('nc,ck->nk', [zI, QT.clone().detach()]) # 一个batch中的所有样本和负样本队列进行负样本打分,大小为M x K

ここに画像の説明を挿入

Fig 6.11 WenLan的示意图,上半部分设置的是文本负样本队列,下半部分是图片负样本队列。

当然,此处只是一套编码器,如果考虑另一套编码器,那么整体框图如Fig 6.11整体所示,通过另一套编码器我们可以得到损失 L T 2 I \mathcal{L}_{T2I} LT2_、2 つのエンコーダの損失を加算して、最終的な損失を取得します。
L = LI 2 T + LT 2 I (6.11) \mathcal{L} = \mathcal{L}_{I2T}+\mathcal{L}_{ T2I } \タグ{6.11}L=LI2T _ _+LT2_( 6.11 )添え字jj
付きj はベクトルにインデックスを付けることを意味し、損失のこれら 2 つの部分は次のように洗練されて表現できます。
LI 2 T = − ∑ j log ⁡ exp ⁡ ( zj I ⋅ zj T / τ ) exp ⁡ ( zj I ⋅ zj T / τ ) + ∑ n T ∈ QT exp ⁡ ( zj I ⋅ n T / τ ) LT 2 I = − ∑ j log ⁡ exp ⁡ ( zj T ⋅ zj I / τ ) exp ⁡ ( zj T ⋅ zj I / τ ) + ∑ n I ∈ QI exp ⁡ ( zj T ⋅ n I / τ ) (6.12) \begin{aligned} \mathcal{L}_{I2T} &= -\sum_{j} \log\dfrac{\exp( z^{ I}_{j} \cdot z^{T}_j / \tau)}{\exp(z^{I}_{j} \cdot z^{T}_j / \tau)+\sum_ {n^ T\in Q^T} \exp(z^{I}_{j} \cdot n^T / \tau)} \\ \mathcal{L}_{T2I} &= -\sum_{j } \log \dfrac{\exp(z^{T}_{j} \cdot z^{I}_j / \tau)}{\exp(z^{T}_{j} \cdot z^{I }_j / \tau)+\sum_{n^I \in Q^I} \exp(z^{T}_{j} \cdot n^I / \tau)} \end{aligned} \tag{6.12 }LI2T _ _LT2_=jログ_exp ( zjzjT/ t )+nTQTexp ( zjnT /t)exp ( zjzjT/ t)。=jログ_exp ( zjTzj/ t )+nIQexp ( zjTnI /texp ( zjTzj/ t)。( 6.12 )
ブロック図 図 6.11 より、バッチ入力{ BT , BI } \{B^{T}, B^I\} の{ BBI }, 計算のために 2 組のエンコーダーに入力する必要があるため、計算量と GPU のメモリが比較的多くなります. さらに、WenLan では 2560 の隠れ層サイズが使用されます。 A100でも各カードのバッチサイズ=16までしか開けません。同時に、これはネガティブ サンプル キューのサイズにも制約を与えるため、将来さらに改善できる点になる可能性があります。

ネガティブサンプルキューの更新戦略について話しましょう。モダリティごとに、GPU でキュー行列Q ∈ RD × KQ\in \mathbb{R}^{D \times K} を手動で維持します。QRD × Kqueue_ptr 、およびキュー内のどこでキューを更新するかを示すキュー ポインター図 6.12 に示すように (エンコーダの 1 セットを例として)、同時にデータ並列計算 [63] を実行する 2 つの GPU があると仮定すると、 \mathbb{ の特徴 z ∈ RM × D z\ R}^{M \times D}zRM × Dはネガティブ サンプル キューQQQ、このとき、ネガティブ サンプル キューをより迅速に更新するために、gatherすべての GPU 上の特徴を集約 () し、集約されたものを計算しますbatch size=G*M。ここで、G はカードの数です。このとき、 に従ってqueue_ptrQ[:, queue_ptr:queue_ptr+batch_size]集約された特徴は に割り当てられます。プロセス全体は Code 6.2 でも見ることができます。

コード 6.2 ネガティブ サンプル キュー更新戦略のコード図。
feature_z_gathered = concat_all_gather(feature_z) # 此处汇聚所有GPU上的相同张量。
batch_size = feature_z_gathered.shape[0] 
Q[:, queue_ptr:queue_ptr + batch_size] = feature_z_gathered.transpose()

ここに画像の説明を挿入

図 6.12 ネガティブサンプルキューの更新図。
ブラシ データ セットの数値指標については当面説明しませんが、この章では主にいくつかの WenLan 可視化結果を見て説明していきます。画像キャプション タスクでは、図 6.13 に示すように、入力画像に対してテキスト説明推論が実行されます。WenLan は、「笑顔」、「晴れた空」、「衣装」などの画像内の視覚的意味を非常によくキャプチャできることがわかりました。 「」「信号機」など。実際のアプリケーションのシナリオ、つまり商用の画像とテキストの検索シナリオを考慮すると、ユーザーの検索は、「Happy Birthday~」の検索のように、視覚的な意味の相関が弱い可能性があります。この時点では、クエリには明らかな視覚的なエンティティがありません。しかし、ユーザーが取得したいものは、実際にはケーキ、誕生日の帽子、キャンドルなどの「ハッピーバースデー」に関連する視覚的エンティティであると推測できます。

多模态模型并不能很好地解决这类型的问题,多模态模型能做到把图片的视觉概念挖掘出来就达到了设计目的,至于深入挖掘图片的更为深层次的人文背景,人物关系,作品等等,则需要采用知识图谱(Knowledge Graph)进行概念之间的关联。比如Fig 6.13中的第三个case,我们都知道这个是电影『大话西游』中的一个名场景,但是从视觉中模型只能知道是『一个穿着戏服的男人和一个穿着戏服的女孩在一起』,显然没有用户会用如此不符合检索习惯的语句进行搜索,更可能的检索是『大话西游 假如上天再给我一个机会』『大话西游 名场面』之类的。显然这些概念多模态模型无法捕捉,这也许也就是多模态模型的局限了吧。

ここに画像の説明を挿入

Fig 6.13 WenLan对图片进行描述,其能挖掘出较好的视觉语义信息。

WenLan V2 [64] 在WenLan的基础上进行了一些优化,主要有以下几点:

  1. WenLan v2采用了更大的互联网图文数据集进行预训练,数据规模多达6.5亿图文对,并且由于数据来自互联网爬虫得到,没有进行过人工标注,数据更接近与真实生活数据,即是弱视觉语义数据。该数据集对比与在WenLan 1.0中采用的3000万弱语义图文对,显然在数量级上又更上一层楼。

  2. 从技术上看,该工作去除了WenLan中的Object Detector,因此是不依赖于物体检测结果的图文匹配模型,这个特点使得该工作更适合与实际工业界中的应用,因为涉及到了物体检测意味着需要更多的计算消耗。

  3. 其计算正样本打分的方式对齐了CLIP的做法,具体区别如Fig 6.14所示。

WenLan v2的细节并不是本文重点,就不多介绍,有兴趣的读者可参考笔者之前的博文[65]。

ここに画像の説明を挿入

Fig 6.14 WenLan V2和WenLan的正样本计算方式对比,在同样条件下WenLan V2能够更高效地利用当前的负样本数量。

LiT

前に説明したグラフィックとテキストのペアのデータを思い出してください。理想的には、図 6.15 の左の図のようになります。テキストは画像内の視覚要素を客観的に説明するため、モデルはテキストとテキストの間の意味論的な整合性を学習できます。私たちは、この画像とテキストのペアのデータを「強相関」と呼びます。しかし、実際のインターネットデータでは、テキストやグラフィックスはデータとしてはそれほど理想的ではなく、図 6.15 に示すように、テキストの記述は画像の視覚要素を記述するのではなく、画像全体の抽象的な意味を記述することが多いです。全体像の説明として。視覚的な説明。理想的には次のようになります。

フルーツケーキの上にいくつかの燃えているキャンドルがあります(太字のものは視覚的な概念です)。

しかし、実際のインターネット データには、次のようなシーン全体を抽象的に記述したものが多くあります。

お誕生日おめでとう!願い事をする。

这种抽象描述没有任何视觉元素(实体、属性、关系等),因此我们称之为弱视觉关联(weak correlation)。单纯依靠弱视角关联数据,显然模型无法将没有任何视觉语义的文本对齐到图片中的视觉元素中,这其实也在拷问我们:我们在上文分析中,已经知道了如何对强视觉关联样本建立语义对齐,这种强视觉关联数据都是对具象视觉概念的描述,那么我们如何对抽象的概念进行视觉对齐呢?比如自由、和平、指引、积极向上等等,其实这些抽象概念大多也会有具象的某些视觉联系,比如破碎的枷锁意味着自由,橄榄枝和鸽子象征着和平,灯塔隐含着指引之意,显然抽象概念和对应的隐含视觉概念并不是强视觉关联的,因此也是属于弱视觉关联数据的一种。那么其实又回到了我们一开始的问题,如何对弱视觉关联数据进行跨模态建模呢?问得更基础些,我们如何对弱视觉关联数据进行语义对齐?不回答这个问题,我们将难以对抽象概念进行语义对齐。

ここに画像の説明を挿入

Fig 6.15 强关联样本中Query的视觉概念容易识别,弱关联样本中Query更为口语化和抽象,难以直接抽离相关视觉概念。

一种可能的回答是,通过大量视觉语义相似数据的对比,从中找出文本抽象概念与文本具象概念的对应关系。具体些,如Fig 6.16所示,假如我们想要学习出“生日快乐”与“生日蛋糕”有着强烈的相关性,那么一种可能的做法,在数据量足够多的时候,我们会有很多与蛋糕图片能够配对的文本,这些文本里面可能有抽象概念,如“生日快乐”,也可能有具象概念,比如“生日蛋糕”,而此时生日蛋糕的图片显然都是视觉语义相似的。通过相同的视觉概念作为桥梁,从而可以学习出抽象概念和具象概念的某些关联,正如Fig 6.16的例子所示,这种方法提供了模型学习出“生日蛋糕和生日快乐是相关”的能力。

上記のスキームの前提は 2 つあります: 第 1 に、大量のデータが必要であり、それを提供するにはインターネットで十分であること、第 2 に、多数のサンプルを一度に比較する必要があることです。1点目はわかりやすいのですが、2点目はどうでしょうか?その理由は、多数のサンプルを一度に比較することによってのみ、同様の視覚的概念を持つ画像をサンプリングする確率を向上できるためです。これは、を改善する必要があることを意味しますbatch sizeが、これはハードウェアによって制限されているため、別の方法を考える必要があります。同様の視覚的意味論的概念を見つけることが重要であるという事実について話しませんでしたか?視覚的意味論的学習の方が優れている場合、視覚的タワー モデルを修正できるでしょうか? batch sizeビジュアルタワーの特性が固定されたら、テキストタワーのみを事前トレーニングする必要がありますが、この時点でメモリ消費量が大幅に削減され、新たな高みに改善することができます。

ここに画像の説明を挿入

図 6.16 データ量が十分に大きい場合、同様の視覚的概念が多くのテキストに関連付けられ、これらのテキストは抽象的な概念と具体的な概念の両方を含む可能性があります。

Lock-Image Tuning (LiT) [20] この研究の出発点はこれではありませんが、著者は依然としてその方法が弱い視覚的意味論の学習に非常に役立つと感じています。LiT では、作成者はいくつかの高品質の画像データ セット (JFT-300M、ImageNet-21K、JFT-8B など) を使用してビジュアル タワーを事前トレーニングします。比較学習用に事前トレーニングされているのはテキスト モデルのみですが、ビデオ メモリを最も占有するビジュアル モデルは現時点では関与していないため、大幅に改善することができますbatch size図 6.17 に示すように、従来の CLIP 法では、視覚特徴量と文字特徴量がいわゆる共通意味空間に近づきますが、LiT 法では視覚特徴量は固定され、文字特徴量のみが共通意味空間に近づきます。視覚的な特徴があり、方向性はより近いです。

ここに画像の説明を挿入

図 6.17 CLIP および LiT メソッドの下で更新されたビジュアルおよびテキスト機能の概略図。

もちろん、作者はビジュアル面を修正するだけでなく、テキスト面のモデルも修正しようとしたり、その両方を修正しようとしたりはしませんでした。同時に、図 6.18 に示すように、ビジュアル/テキスト側のモデルを修正せずに、モデルのウォームアップと完全なトレーニングのさまざまな設定を最初から試してみました。ここで、ロックはモデル パラメータが固定されていることを意味しLますU。モデル パラメーターは固定されておらず、トレーニング前のホット スタートが実行されます。uこれは、モデル パラメーターが固定されておらず、トレーニングが最初から実行される (最初からトレーニングする) ことを意味します。著者は論文の中でさまざまな実験を行い、最終的にゼロショット分類では Lu 構成 (つまり、画像側は固定され、テキスト側は固定されず、最初からトレーニングされる) が最も効果的であることを発見しました。図 6.18 の ImageNet など (b) 0 ショットテストの結果を示します。

ここに画像の説明を挿入

図 6.18 LiT の記事では、著者は Lu、Uu、uu などのいくつかの設定を試しました。
図 6.19 (a) に示すように、LiT の他のパフォーマンスを簡単に見てみましょう。ゼロショット分類タスクでは、LiT は CLIP や ALIGN よりも優れている可能性がありますが、図 6.19 ( b) 「Img -> Txt」および「Txt -> Img」の実験で示されているように、Lu 構成も LU 構成も UU 構成に勝るものはなく、現時点では LiT 方式が大きな利点を持つのはゼロの場合のみであると思われます。 -ショット分類タスク。実際の検索タスクはゼロショット タスクですが、実験でのクロスモーダル検索テスト データ セット (MSCOCO など) は強力な視覚的意味データに偏っているため、LiT のトレーニング方法はゼロショット タスクであることに注意してください。実際、これは現実のクロスモーダル検索タスクに良い啓発効果をもたらします。

ここに画像の説明を挿入

図 6.19 LiT のゼロショット実験結果 (b) から、クロスモーダルマッチングでは Lu と LU の構成が UU の構成を超えないことがわかります。
LiT は、弱い視覚意味論の観点から考えることに加えて、視覚意味論とテキスト意味論の固有の特性からも考えることができます。視覚的な意味論は安定しており、リンゴの絵(食べ物)の意味論的な概念は比較的固定されており、それが突然 Apple の携帯電話や Apple の電子製品用のコンピュータになることはありません。テキストの意味論はあいまいで、あいまいで、時間とともに変化します。その瞬間、「リンゴ」は食べ物だけを意味するかもしれませんが、現時点では、「リンゴ」は食べ物を意味するだけでなく、リンゴを意味することの方が多いです。会社。この観点から見ると、ビジュアル側モデルが十分に学習したら、それを修正し、さらにテキストのマイニングを続け、テキスト側モデルのトレーニングを続けるのが自然な方法のように思えます。それだけでなく、ビジネス シナリオのデータは通常非常に時間に敏感であるため、新しいバズワードは短期間に爆発的に広まり、バズワードの意味論は通常、本来の意味とは大きく異なります。テキスト モデルを継続的にトレーニングすることは、ビジネス アプリケーションにとって非常に使いやすい方法です。

アルベフ

上記の議論から、ツインタワー モデルと大規模比較学習を使用して効率的なセマンティック アラインメントが事前学習されており、ツインタワー モデルは検索や推奨シナリオなどの産業用シナリオに自然に適していることがわかりました。たとえば、画像とテキストの情報取得シナリオでは、ユーザーのクエリと画像の間の画像とテキストの相関を測定する必要があります。画像エンコーダがyv = fv ( I ) , yv ∈ RD y_v =f_v(I), y_v \in \mathbb{R}^{D} の場合yv=fv() yvRD、テキスト エンコーダはyw = fw ( T ) , yw ∈ RD y_w = f_w(T), y_w \in \mathbb{R}^{D} です。y=f( T ) yRD,而待检索库中所有图片的集合记为 D = { I i ∣ i = 1 , ⋯   , M } \mathcal{D}=\{I_i|i=1,\cdots,M\} D={ Iii=1,,M},那么可以预先对所有图片进行特征提取,形成图片的正排(Forward Index)特征并且建库,记为 D F I = { f v ( I i ) , i = 1 , ⋯   , N } \mathcal{D}_{FI}=\{f_v(I_i),i=1,\cdots,N\} DFI={ fv(Ii),i=1,,N},在用户输入检索词 Q Q Q的时候,只需要对Query进行文本编码器的在线计算,得到文本特征 f w = f w ( Q ) f_w=f_w(Q) fw=fw( Q )を実行し、分類対象のサンプルに対して画像の分類と特徴抽出を実行し、相関計算 (オンライン コサイン距離計算) を実行して、候補画像と Query の間の画像とテキストの相関度を決定します。ツインタワー モデルはデータベースを事前に構築し、オンラインで相関関係を計算できるという特徴を利用すると、空間を時間と交換することで多くのコンピューティング リソースを大幅に節約できます。これが、ツインタワー モデルが検索システムで広く使用されている理由です (画像テキスト検索だけでなく)も応募理由の一つです。

この世界には特効薬はありません。ツイン タワー モデルの画像とテキスト情報はオンラインで操作できないため、詳細な画像とテキストの一致要件を満たせないと判断されます。たとえば、「黒のトップスと白のパンツ」を検索すると、Baidu によって返される結果は図 6.20 (a) に示されています。最初の 3 つの広告を除くと、上位 3 件のうち赤枠で囲まれた 2 つは「白のトップ」と「白のパンツ」です。明らかに、検索結果では「黒のトップス」と「白のパンツ」という 2 つの概念が理解されておらず、「黒」「白」と「トップス」と「パンツ」の 2 つの属性が別々に組み合わせられています。そのため、「白いシャツと黒いパンツ」がトップ 20 にランクインしていることになります。また、図 6.20 (b) に示すように、Google でも同様の結果が表示されます。

![fig-albef-badcase][fig-albef-badcase]

図 6.20 Baidu と Google の「黒のトップと白のパンツ」の検索結果。Baidu と Google の両方が「黒のパンツと白のトップ」の写真をいくつかランク付けすることがわかりました。

このマルチモーダル マッチングの粒度が満足のいく結果にならない理由は、ツインタワー モデルの画像エンコーダーとテキスト エンコーダーがオンラインで対話できないことが主な原因です。私たちの画像エンコーダは、すべての画像特徴のライブラリを事前に構築しているため、すべての属性の組み合わせを考慮することはできず、必然的にいくつかのまばらな組み合わせを無視し、値が高くなる傾向があると考えられます。モデル化された。ツインタワー モデルの特性により、複数属性クエリの検索結果は高頻度の組み合わせになる傾向があるだけでなく、図 6.21 の小さな黄色い人など、画像内の一部の大きなオブジェクトが含まれる傾向もあります。特徴抽出を実行すると、画像全体におけるその重要性が、他の大きなオブジェクト (キーボードやディスプレイなど) によって隠れてしまう可能性があります。

ここに画像の説明を挿入

図 6.21 の画像内のミニオンはサイズが小さいため、特徴抽出結果は同じ画像内の他の大きなサイズのオブジェクトによって隠される可能性があります。

这些缺陷其实本质上,是由于双塔模型进行对比学习只对语义对齐进行了建模,而我们在第0x00章的讨论中就已经知道,语义对齐在建模长冷的视觉概念,比如组合型的复杂概念上并不具有优势,为了建模这些组合视觉概念,我们必须同时引入语义融合。语义融合?我们在介绍UNITER的时候,已经知道了单塔交互模型的损失函数大多能对语义融合进行建模,比如ITM和MLM损失等,我们为何不将语义对齐和语义融合都糅合在一起呢?理论上,一种最合适的方式就是先进行足够好的语义对齐训练,进行基础视觉概念的学习,尔后采用语义融合进行组合型的复杂视觉概念学习。

ここに画像の説明を挿入

Fig 6.22 ALBEF的模型结构图。
欸,还真有这样的一系列工作,文章[66]提出了ALBEF模型(ALign BEfore Fuse,ALBEF),尝试通过将双塔模型和单塔模型结合在一起,通过用双塔模型去进行语义对齐,并且通过双塔模型进行难负样本挑选,以备送给单塔模型进行更好的语义融合,这个思路理论上可以融合单塔模型和双塔模型的优点,而不至于带来太多的计算负担。如Fig 6.22 (a)所示,ALBEF模型本质上也是一个双塔模型,文本侧和图片侧都是一个12层的BERT模型,只是在文本端将一个12层的BERT模型拆分为了前6层(称为文本编码器,text encoder)和后6层(称为多模编码器,multimodal encoder),而图片端就是一个12层的BERT编码器(称为图片编码器,image encoder)。其中前6层和图片侧模型进行对比学习训练,后6层进行语义融合训练。那么如何为语义融合挑选合适的样本呢?ALBEF采用的是通过对比学习挑选难负例,如Fig 6.23所示,负样本中打分最高的样本将会被视为难负例,与正样本一起送入后续的多模态编码器,通过前文谈到的ITM和MLM损失进行语义融合建模。

このプロセスを数学的に形式化することもできます。{ v CLS , v 1 , ⋯ , v N } \{\mathbf{v}_{CLS},\mathbf{v}_1,\cdots,\mathbf{ v} を使用します。 _N\}{ vCLS _ _v1vN}は画像入力I \mathbf{I}Iのピクチャ エンコーダのエンコード結果I \mathbf{I}テキスト エンコーダ{ w CLS , w 1 , ⋯ , w N } \{\mathbf{w}_{CLS},\mathbf{w}_1,\cdots,\mathbf{w } の後のエンコード結果を表すこともできます _N\}{ wCLS _ _w1wN} . 事前トレーニングの目標には 2 種類あります。

  1. セマンティック アライメント: シングルモーダル エンコーダー (実際にはツインタワー モデル) による画像とテキストのセマンティック アライメントのための画像テキスト対照学習 (ITC)
  2. セマンティック フュージョン: 意味的に調整された画像/テキストの特徴は、マルチモーダル エンコーダーでクロスモーダルに対話され、画像とテキストのセマンティック フュージョンは、マスク言語モデル (MLM) および画像テキスト マッチング (ICM) タスクを通じて実行されます。

セマンティック アラインメントは、ツインタワー モデルの大規模な対比学習を通じて実行できます。目標は、画像とテキストのペアを可能な限り類似させることです。つまり、 s = gv ( vcls ) T gw ( wcls ) s= g_v (\mathbf{ v}_{cls})^{\mathrm{T}}g_w(\mathbf{w}_{cls})s=gv( vクラス_ _Tg _( wクラス_ _)、ここでgv ( ⋅ ) g_v(\cdot)gv( )gw ( ⋅ ) g_w(\cdot)g( )[CLS]はペアの線形マップであり[CLS]特徴次元をマルチモーダルな共通特徴部分空間にマッピングします。WenLan と同様に、ALBEF モデルでも、著者は 2 つの画像/テキスト サンプル キューと、最も近いモーメンタム エンコーダのMMM の表現、運動量エンコーダからのこれらの特徴は gv ' ( vcls ' ) g_{v}^{\prime}(\mathbf{v}^{\prime}_{cls}) として表現されますgv( vクラス_ _) g w ′ ( w c l s ′ ) g_{w}^{\prime}(\mathbf{w}^{\prime}_{cls}) gw(wcls) 。进行跨模态匹配打分,如式子(6-13)所示
s ( I , T ) = g v ( v c l s ) T g w ′ ( w c l s ′ ) s ( T , I ) = g w ( w c l s ) T g v ′ ( v c l s ′ ) (6-13) \begin{aligned} s(I,T) &= g_v(\mathbf{v}_{cls})^{\mathrm{T}}g_{w}^{\prime}(\mathbf{w}^{\prime}_{cls}) \\ s(T,I) &= g_w(\mathbf{w}_{cls})^{\mathrm{T}}g_{v}^{\prime}(\mathbf{v}^{\prime}_{cls}) \end{aligned} \tag{6-13} s(I,T)s(T,I)=gv(vcls)Tgw(wcls)=gw(wcls)Tgv(vcls)(6-13)
那么可以定义出图-文/文-图相关性,如式子(6-14)所示,其中的 N N Nbatch size(这一点是代码实现,和论文有些偏差[67])
p m i 2 t ( I ) = exp ⁡ ( s ( I , T m ) / τ ) ∑ m = 1 M + N exp ⁡ ( s ( I , T m ) τ ) p m t 2 i ( T ) = exp ⁡ ( s ( T , I m ) / τ ) ∑ m = 1 M + N exp ⁡ ( s ( T , I m ) τ ) (6-14) \begin{aligned} p^{i2t}_{m}(I) &= \dfrac{\exp(s(I, T_m)/\tau)}{\sum_{m=1}^{M+N}\exp(s(I,T_m)\tau)} \\ p^{t2i}_{m}(T) &= \dfrac{\exp(s(T, I_m)/\tau)}{\sum_{m=1}^{M+N}\exp(s(T, I_m)\tau)} \end{aligned} \tag{6-14} pmi2t()pメートルt 2 i( T )=m = 1M + Nexp ( s ( I ,Tメートル))exp ( s ( I ,Tメートル) / t )=m = 1M + Nexp ( s ( T ,メートル))exp ( s ( T ,メートル) / t )( 6-14 )
yi 2 t ( I ) \mathbf{y}^{i2t}(I)yi 2 t (I)yt 2 i ( T ) \mathbf{y}^{t2i}(T)yt2i(T)表示真实的标签,通过交叉熵损失定义出图文对比损失(Image-Text Contrastive Loss, ITC):
L i t c = 1 2 E ( I , T ) ∼ D [ H ( y i 2 t ( I ) , p i 2 t ( I ) ) + H ( y t 2 i ( T ) , p t 2 i ( T ) ) ] (6-15) \mathcal{L}_{itc} = \dfrac{1}{2} \mathbb{E}_{(I,T) \sim D} [H(\mathbf{y}^{i2t}(I), \mathbf{p}^{i2t}(I))+H(\mathbf{y}^{t2i}(T), \mathbf{p}^{t2i}(T))] \tag{6-15} Litc=21E(I,T)D[H(yi2t(I),pi2t(I))+H(yt 2 i (T)pt 2 i (T))]( 6-15 )

ここに画像の説明を挿入

図 6.23 ALBEF におけるハードネガティブ選択戦略。

ALBEF モデルの最下層はツインタワー セマンティック アライメントであり、その上位層はシングルタワーセマンティック フュージョンです。意味融合を達成するために、この論文ではマスク言語モデル (MLM) 損失を使用して正のサンプル ペアをモデル化します。著者は15 % 15\%を受け取ります15% の確率で入力トークンを特別なトークンに置き換えますT ^ \hat{T}[MASK]としますT^はマスクされたテキストを示します。pmsk ( I , T ^ ) \mathbf{p}^{msk}(I,\hat{T})pm s k (T^ )はマスクされたトークンの予測結果を表し、ymsk \mathbf{y}^{msk}ym s kはマスクされたトークンの実ラベルを表し、MLM の目的は次のクロスエントロピー損失を最小限に抑えることです:
L mlm = E ( I , T ^ ) ∼ DH ( ymsk , pmsk ( I , T ^ ) ) (6- 16) \mathcal{L}_{mlm} = \mathbb{E}_{(I, \hat{T})\sim D} H(\mathbf{y}^{msk}, \mathbf{ p}^ {msk}(I,\hat{T})) \tag{6-16}Lミリリットル_ _=E(T^ )〜D_H ( ym・s・kpm s k (T^ ))( 6-16 )
MLM 損失モデリングを通じて、マルチモーダルエンティティ間の意味的整合性を見つけることができるだけでなく、各エンティティ間の複合的な意味関係も見つけることができます。図 6.24 に示すように、MLM 損失は、異なるエンティティを融合するためのモデル。それらの間のマルチモーダルな関係をマイニングして、マスクされたエンティティについての予測を行います。

ここに画像の説明を挿入

図 6.24 MLM 損失は、マスクされたエンティティの予測を行うために、異なるエンティティの意味関係を融合するようにモデルを制約します。

除了MLM损失,文章中还通过图文匹配损失(Image-Text Matching,ITM)对难负样本进行匹配学习,从而期望模型能够对难负样本有着更好的区分能力,从而弥补单塔模型无法进行难负样本选取的缺点,以提升多模态模型的语义对齐和语义融合能力。作者挑选难负样本的依据是根据双塔模型的打分,如Fig 6.23所示,可以挑选出同一个Query下面最为难的Image(打分最高,但却是预测错误的),也可以挑选出同个Image下最难的Query(论文中是根据打分大小设置概率进行采样得到的)。由此可以得到 N N N个正例和 2 N 2N 2N个难负例构成了ITM任务的输入,其损失如式子(6-17)所示。
L i t m = E ( I , T ) ∼ D H ( y i t m , p i t m ( I , T ) ) (6-17) \mathcal{L}_{itm} = \mathbb{E}_{(I,T)\sim D} H(\mathbf{y}^{itm}, \mathbf{p}^{itm}(I,T)) \tag{6-17} Litm=E(I,T)DH(yitm,pi t m ())( 6-17 )
最後のトレーニング前段階の損失は、式 (6-18) に示すように、上記の 3 つの損失で構成されます。
L = L itc + L mlm + L itm (6-18) \mathcal{L } = \mathcal{L}_{itc}+\mathcal{L}_{mlm}+\mathcal{L}_{itm} \tag{6-18}L=Lそれ_+Lミリリットル_ _+L_( 6-18 )
事前トレーニングに使用されるグラフィック データのほとんどはインターネットから取得され、通常はいわゆる弱い視覚的意味論的なデータ セットです。テキストには、視覚的意味論的データ セットとまったく関係のない単語が含まれる場合があります。画像には本文に記載されていない内容が含まれている場合があります。ITC 損失の場合、画像のネガティブ サンプル テキストも画像と一致する可能性があります (特に、画像とテキストのペアのデータがユーザーのクリック データに由来する場合)。MLM 損失の場合、マスクされたトークンは他のトークンの代替となる可能性があります。画像についても説明します (さらに適切な場合もあります)。著者は、ITC および MLM タスクのトレーニングにラベルを使用すると、one-hotこれらの否定的な例が本当に「否定的な例」であるかどうかに関係なく、すべての否定的な例が抑制されると信じています。この問題を解決するために、著者は、運動量エンコーダをシングルモード/マルチモーダル エンコーダの指数移動平均バージョン (指数移動平均) とみなすことができ、運動量エンコーダを使用できることを提案します。 ITC および MLM タスクを生成します。「疑似ラベル」。運動量エンコーダを使用すると、運動量エンコーダのスコアリングが行われます。
s ' ( I , T ) = gv ' ( vcls ' ) T gw ' ( wcls ' ) s ' ( T , I ) = gw ' ( wcls ' ) T gv ' ( vcls ' ) (6-19) \begin{aligned} s^{\prime}(I,T) &= g^{\prime}_{v}(\mathbf{v}_{cls}^{\素数})^{\mathrm{T}} g^{\素数}_{w}(\mathbf{w}_{cls}^{\素数}) \\ s^{\素数}(T,I) &= g^{\prime}_{w}(\mathbf{w}_{cls}^{\prime})^{\mathrm{T}} g^{\prime}_{v}(\mathbf{ v}_{cls}^{\prime}) \end{aligned} \tag{6-19}ss' (T,=gv( vクラス_ _Tg _w( wクラス_ _=gw( wクラス_ _Tg _v( vクラス_ _)( 6-19 )
(6-19) のs ' s^{\prime}s'式(6-14)にsss 、擬似ラベルqi 2 t 、 qt 2 i \mathbf{q}^{i2t}、\mathbf{q}^{t2i} を取得します。qi 2 tqt 2 i、次にITCM o D ITC_{MoD}ITC _ _モード_次のように決定します。
L itcmod = ( 1 − α ) L itc + α 2 E ( I , T ) ∼ D [ KL ( qi 2 t ( I ) ∣ ∣ pi 2 t ( I ) ) + KL ( qt 2 i ( T ) ∣ ∣ pt 2 i ( T ) ) ] (6-20) \mathcal{L}_{itc}^{mod} = (1-\alpha)\mathcal{L}_{itc}+\dfrac{ \alpha }{2}\mathbb{E}_{(I,T) \sim D} [KL(\mathbf{q}^{i2t}(I) || \mathbf{p}^{i2t}(I). )) + KL(\mathbf{q}^{t2i}(T) || \mathbf{p}^{t2i}(T))] \tag{6-20}Litc _ _モード_ _=( 1a ) Lそれ_+2あるE( I T ) D[ K L ( qi 2 t (I)∣∣pi2t(I))+KL(qt2i(T)∣∣pt2i(T))](6-20)
类似的, M L M M o D MLM_{MoD} MLMMoD损失可以定义为:
L m l m m o d = ( 1 − α ) L m l m + α E ( I , T ^ ) ∼ D K L ( q m s k ( I , T ^ ) ∣ ∣ p m s k ( I , T ^ ) ) (6-21) \mathcal{L}_{mlm}^{mod} = (1-\alpha)\mathcal{L}_{mlm} + \alpha\mathbb{E}_{(I,\hat{T}) \sim D} KL(\mathbf{q}^{msk}(I, \hat{T}) ||\mathbf{p}^{msk}(I, \hat{T})) \tag{6-21} Lmlmmod=( 1a ) Lミリリットル_ _+_(T^ )〜D_K L ( qm s k (T^ )∣∣pm s k (T^ ))( 6-21 )
なぜ運動量エンコーダはいわゆる「疑似ラベル」を生成できるのでしょうか? データ量が比較的大きい場合、エンコーダは、同じテキストと異なる種類の画像のデータ ペアを異なるステップで認識することがあります。テキストの説明に 2 つのエンティティ アヒルとオレンジがあり、データ ペアの{text,image A}画像 A にアヒルがあり、オレンジだけの画像 B が否定的な例として考えられる状況を考えてみましょう。データ ペアでは、{text,image B}と画像にオレンジがあります。アヒルだけのAはマイナス例といえるかもしれません。運動量を介してエンコーダを更新することは、運動量を更新する過程におけるγ \gammaγは、さまざまなステップで遭遇した{text,image A}, {text, image B}サンプルのラベル情報を考慮する

アーニーウィル 2.0

之前的工作大部分只采集了caption信息组成图文对进行预训练,不免浪费了互联网图片中丰富的文本信息。如Fig 6.25所示,网页中的图片附带有着众多不同类型的文本信息可供使用,如图片的标题,图片的类别信息(可以是用户自选的),图片对应的上下文信息等,这些文本信息或多或少都与图片有所关联,在预训练中或多或少能提供帮助。不仅如此,甚至还可以用Object Detector进行图片中的实体识别,对图片进行打tag,生成一系列文本。同时,在商业系统中还能通过点击信号,挖掘出用户query与图片的样本对<query, image>

ここに画像の説明を挿入

Fig 6.25 互联网中的图片,通常附带有众多相关的文本信息。

ERNIE VIL 2.0 [19] では、著者は 2 タワー モデルを採用し、CLIP メソッドを採用して、all_gather112 個の A100 GPU と操作を使用して合計バッチ サイズを 7168 に増やしました。そして最も重要なことは、この論文で著者が「多視点対照学習」を提案したことであり、多視点とは同じモダリティ(写真、テキスト)で異なる視点を表現することを指します。たとえば、写真の場合、画像の揺れやランダムなトリミングなどの画像拡張 (画像拡張) を画像に対して実行できます。この方法により、元の画像と画像補正後の画像を表す 2 つの視点からの画像を生成できます。テキストモードの場合、著者は、キャプションに加えて、画像の他の利用可能なテキスト情報もマルチビューテキスト情報とみなすことができると考えています。たとえば、この記事では、画像のタグがそのテキスト情報であると著者は考えています。マルチビューテキスト。次に、写真のキャプションと写真のタグ (ユーザーが選択することも、Object Detector などのモデルで生成することもできます) についても同様です。図 6.26 に示すように、単一ビューの対比学習と比較して、同じモダリティ内およびモダリティ間の両方で対比損失を構築できます。式(6-22)に示すように、 は正のサンプルペアの組み合わせ、 は負のサンプルペアの組み合わせ、 はサンプル番号です。式 (6-23) に示すように、(6-22) のペアの種類ごとに、infoNCE 損失を通じて損失モデリングが実行されます。ERNIE-VIL 2.0全体のモデル構造を図6.26©に示します。
S + = { ( I v 1 i , I v 2 i ) , ( T v 1 i , T v 2 i ) , ( I v 1 i , T v 1 i ) , ( T v 1 i , I v 1 i ) } S − = { ( I v 1 i , I v 2 j ) , ( T v 1 i , T v 2 j ) , ( I v 1 i , T v 1 j ) , ( T v 1 i , I v 1 j ) } , i ≠ j (6-22) \begin{align} S^{+} &= \{(I_{v1}^{i}, I_{v2}^{i}), (T_{v1}^{i}, T_{v2}^{i}), (I_{v1}^{i}, T_{v1}^{i}), (T_{v1}^{i}, I_{v1}^{i})\} \\ S^{-} &= \{(I_{v1}^{i}, I_{v2}^{j}), (T_{v1}^{i}, T_{v2}^{j}), (I_{v1}^{i}, T_{v1}^{j}), (T_{v1}^{i}, I_{v1}^{j})\}, i \neq j \end{align} \tag{6-22} S+S={(Iv1i,Iv2i),(Tv1i,Tv2i),(Iv1i,Tv1i),(Tv1i,Iv1i)}={(Iv1i,Iv2j),(Tv1i,Tv2j),(Iv1i,Tv1j),(Tv1i,Iv1j)},i=j(6-22)

L ( x , y ) = − 1 N ∑ i N log ⁡ exp ⁡ ( ( h x i ) T h y i / τ ) ∑ j = 1 N exp ⁡ ( ( h x i ) T h y j / τ ) (6-23) L(x, y) = -\dfrac{1}{N} \sum_{i}^N \log\dfrac{\exp((h_{x}^i)^{\mathrm{T}} h_{y}^i/\tau)}{\sum_{j=1}^N \exp((h_{x}^i)^{\mathrm{T}} h_{y}^j/\tau)} \tag{6-23} L(x,y)=N1iNlogj=1Nexp((hxi)Thyj/τ)exp((hxi)Thyi/τ)(6-23)

ここに画像の説明を挿入

Fig 6.26 (a,b)多视角对比学习 与 单视角对比学习的对比。(c)ERNIE-VIL 2.0的模型结构框架。

実験結果は掲載されませんが、マルチビューのテキスト サンプルを通じていくつかの抽象エンティティのセマンティクスを拡張できるため、この方法はより興味深いと著者は考えています。図 6.27 に示すように、(a) のキャプションに記載されている「夕食」の場合、「夕食」は本質的に抽象的な存在であり、特定の種類の食べ物に可視化されておらず、Object Detector によって取得されたタグは、モデルは、写真の中にトマト、玉ねぎ、食べ物などのエンティティがあることを認識し、キャプションとタグの関連付けを確立することで、モデルは夕食の具体的なセマンティクスを学習できます。図 6.27 (b) と © では、BMW E90 は BMW のモデルの 1 つであり、Gatos Manx は飼い主が猫に付けた愛称であるはずです。車のモデルのセマンティクスは非常にまばらであり、猫の名前はさらにまばらです。トレーニング サンプルには他の共起テキストさえ存在しない可能性があります。このセマンティクスを学習するのは困難です。そして、キャプションとタグの関連付けを確立することで、モデルは、BWM E90 が白い車で、ガトス マンクスが猫であることを学習できます (もちろん、これには危険が伴います。おそらく誰かがこの名前を持っているかもしれませんが、それは次のようなものです)王彩「『富貴』は犬や猫に付けられる可能性が高いので、このようにして学習した偏見にはメリットがないわけではないのでは?)したがって、マルチビューテキストのマルチモーダル事前トレーニング方法を通じて、抽象的な意味論を拡張し、疎な意味論を学習することができます。これは、記事「ERNIE VIL 2.0」からの著者にとっての最大のインスピレーションです。

ここに画像の説明を挿入

図 6.27 マルチビューテキストの事前学習を通じて、抽象的な意味論を拡張し、疎な意味論を学習できます。

フリップ

以前シングルモーダル自己教師ありモデリングについて説明したときに、MAE モデルと VideoMAE モデルについて言及しましたが、画像領域の大部分 (80%) がマスクされている場合でも、図 2.9 (b) から見つけるのは難しくありません。画像のレベル再構成結果には、依然として十分な視覚的意味情報が含まれています。これはわかりやすいです。画像自体は情報の冗長性が高い情報媒体です。その大部分をマスキングしても、視覚的な意味情報が漏洩するのに十分な情報がまだ残っています。したがって、以前の研究ではスパーストークン化が不足することはありませんでした。と。ビジュアル エンドの機能を完全に修正する LiT モデルについて言及しましたが、ビジュアル エンド モデルのリソース消費を削減し、同時にビジュアル エンド モデルを学習できる妥協点はありますか? 上記の事実と要件を組み合わせて、一部の学者は MAE を模倣し、CLIP に基づいて広い領域で入力画像をマスクし、マスクされていない画像ブロックをビジュアルエンドモデルの入力として使用し、それによってリソース消費を大幅に削減することを提案しました。職業、これは Fast Language-Image Pretraining (FLIP) [24] のモデリングのアイデアです。
ここに画像の説明を挿入

図 6.28 FLIP では、画像を均等にブロックに分割し、その大部分をマスクした後、マスクされていない部分を画像エンコーダの入力として順番に並べて比較学習モデリングを行います。

図 6.28 に示すように、FLIP では、画像を均等にブロックに分割し、その大部分に対してランダムなマスキング (50%) を行った後、マスクされていない部分を画像エンコーダの入力として順番に並べて学習します。比較すると、この方法により、ピクチャサイド モデルのビデオ メモリとコンピューティング リソースの要件が大幅に削減されるため、次のことが達成されます。

  1. より大きなものを使用するbatch size
  2. より大きなビジュアルエンドモデルを採用
  3. 事前トレーニングに大規模なデータセットを使用できる機能

図 6.29 に示すように、FLIP 法 (マスク 50% または 75%) を採用すると、元の CLIP モデルと同じ効果がより短時間で得られ、同じ学習時間でより良い結果が得られます。速度は約 3.7 倍になります。

ここに画像の説明を挿入

図 6.29 FLIP 方式を採用すると、元の CLIP と同じ効果がより短時間で得られます。

FLIP の手法は非常に単純でシンプルで、Kaiming 氏のスタイルを常に継承しており、論文では非常に詳細な実験が行われていますが、ここでは分析のためにいくつかの実験のみを抽出します。図 6.30 に示すように、これは ImageNet-1K での FLIP のゼロショット アブレーション テストの結果であり、次のことを調査しています。

  1. 掩膜比例的影响:掩膜达到50%的比例能够取得最好的效果,大部分图片块对于对比学习的语义对齐而言似乎都是冗余的。
  2. batch size的影响:FLIP允许batch size开到64k,我们发现无论是在掩膜比例在50%或是75%,果然batch size越大效果越好。
  3. 是否对文本进行掩膜:文本是一种信息密度极大的媒介,直观上看对其进行掩膜会有较大损失,从实验(c)来看也确实如此,不对其进行掩膜的效果是最好的。
  4. 在推理阶段是否进行反掩膜:在推理阶段为了图片信息的完整性,直观的做法就是对其掩膜过程进行逆转,用完整的图片进行推理。从试验(d)上看,采用了反掩膜的方式推理效果最好。
  5. 是否进行反掩膜微调:由于推理时候采用了反掩膜的操作,为了预训练和推理的任务分布一致性,直观来看应该在FLIP预训练完后,对其进行少量的同分布微调。在试验(e)中,作者对FLIP预训练后的结果进行了少量的反掩膜微调,结果确实比基线为佳。
  6. 是否引入视觉重建任务:是否要在对比学习过程中也引入MAE的重建损失呢?试验(f)告诉我们是不需要的,也许MAE的重建任务偏向于像素级重建,而对比学习学习的语义对齐并不依赖于这种低层视觉语义吧。

ここに画像の説明を挿入

Fig 6.30 FLIP在ImageNet-1K上的zero-shot消融试验结果。

再让我们看到FLIP和CLIP的实验对比,如Fig 6.31所示,作者复现了CLIP,同时也采用了OpenCLIP的结果进行对比,采用了FLIP之后在L/14L/16设置下都能超越CLIP和openCLIP的结果。这样看来FLIP也是值得探索的一种方法。

ここに画像の説明を挿入

Fig 6.31 FLIP与CLIP结果进行对比。

BEiT v3

以前に、セマンティック アラインメント タスクにおける対比学習損失の驚くべき効果を紹介し、なぜ ITM および MLM 損失がセマンティック アラインメント タスクにおいて不利な点を示すのかについても説明しましたが、ITM と MLM 損失が本当にセマンティック アラインメントをモデル化できないかどうかについても説明しました。言い換えれば、これら 2 つの損失は、セマンティック調整タスクにおいて非効率になる運命にあるのでしょうか? 興味深いことに、BEiT v3 モデル [68] は、別の驚くべき答えを与えてくれるようです. 図 6.32 に示すように、モデル化に MLM 損失のみを使用する BEiT v3 モデルは、六角形の戦士として説明できます。先代を超え、最先端の技術に到達しました。大規模な対照学習を行わずに、なぜこれほど優れた意味的整合効果が達成できるのでしょうか? それでは、上で議論したことは間違っているのでしょうか? そして作者の話をゆっくり聞いてください。

ここに画像の説明を挿入

図 6.32 BEiT v3 モデルは六角形の戦士として説明でき、多くのビジュアル タスクやマルチモーダル タスクにおいて絶対的な優位性を備え、最も高度なレベルに達しています。

BEiT という名前が示すように、BEiT v3 は BEiT および BEiT v2 モデルの後継作品です。このシリーズの特徴の 1 つは、視覚的スパース トークン化を使用して視覚的特徴を表現することです。ディープは視覚的にスパース化された特徴に依存しています。BEiT v3 では、作者は視覚情報を「外国語」 (Imglish) とみなしているため、視覚的にトークン化されています。トークン化ツールでは、ピクセル再構築に偏った VQ-VAE 手法は使用されなくなりましたが、視覚的なセマンティクスに基づいた再構築が行われます。 BEiT v2で採用されている方式を採用、詳細はChapter 0x01を参照してください。図 6.33 に示すように、視覚的なスパース トークン化を通じて、テキストと画像が一連の離散トークンに変換され、画像、テキスト、および画像とテキストのペアが Multiway Transformer を通じてモデル化されます。

ここに画像の説明を挿入

図 6.33 Multiway Transformer を使用して画像、テキスト、およびテキストをモデリングし、画像とテキストのモーダルな違いを区別せずに、マスク データ モデリングの事前トレーニング タスクを通じて統合モデリングを実行します。

具体的には、図 6.30 に示すように、 BEiT v3 のフロント( L − F ) x (LF)x( LF )レイヤーx はビジュアルエキスパート 11V-FFNテキストエキスパートL-FFN、最上位はxxx層はマルチモーダル融合エキスパートでありVL-FFNx = 3 x=3バツ=V-FFN、 、L-FFNまたはに関係なくVL-FFN、実際には、本質は 1 つですFeed-Forward Networkが、さまざまなモダリティの入力はトレーニングによって制御され、ルーティングされるため、この名前が付けられています。テキスト トークンがT ∈ RM × 1 T\in \mathbb{R}^{M \times 1}TRM × 1、ビジュアルトークンはV ∈ RNV \in \mathbb{R}^{N}VRN、ここでMMMさんNNさんNはトークンの数です。テーブルを個別に検索した後、テキストとビジョンの埋め込みベクトルが取得されます。これは、T e ∈ RM × d T_{e} \in \mathbb{R}^{M \times d} としてTRM × dV e ∈ RN × d V_{e} \in \mathbb{R}^{N \times d}VRN × d、画像とテキストのペアの埋め込みベクトルは、2 つのスプライシングとして表現できます。つまり、VL e = [ V e ; T e ] ∈ R ( M + N ) × d VL_{e} = [V_{e };T_{e}] \in \mathbb{R}^{(M+N) \times d}VL _=[ V;TR( M + N ) × d

図 6.33 のShared Multi-Head Self-Attentionモジュールの機能は、テキスト、画像、または画像とテキストのペア モードに関係なく、マルチヘッド セルフ アテンション メカニズムを処理することであるため、式 (6) のsharedXXという名前が付けられています。 -24)X はT e T_{e}にすることができますTV e V_{e}VまたはVL e VL_{e}VL _O = ソフトマックス ( QKT dk + attn ) VQ = XWQ ∈ RN × DK = XWK ∈ RN × DV = XWV ∈ RN × DO = XWQ ∈ RN × D (6-24) \begin{align} O &= \ mathrm
{softmax}(\dfrac{QK^{\mathrm{T}}}{\sqrt{d_k}}+attn)V \\ Q &= XW_{Q}\in \mathbb{R}^{N \times D } \\ K &= XW_{K}\in \mathbb{R}^{N \times D} \\ V &= XW_{V}\in \mathbb{R}^{N \times D} \\ O &= XW_{Q}\in \mathbb{R}^{N \times D} \\ \end{align} \tag{6-24}QKVああ=ソフトマックス(d Q KT+a tt n ) V=XW _QRN × D=XW _KRN × D=XW _VRN × D=XW _QRN × D( 6-24 )
事前学習では、Masked Data Modeling のみをモデリングに使用しますが、この本質は MLM と同じです。具体的には、単一モーダル入力 (テキストまたは画像) またはマルチモーダル入力 (グラフィックとテキストのペア) に関係なく、その中のテキスト/画像のみがマスクされ、トレーニング モデルはトークンの再構築をマスクしようとします。作成者はユニモーダル テキスト入力に対して15 % 15\%マルチモーダル テキスト入力の場合は15% の確率、 50 % 50\%ランダムマスキングの確率は50%、画像のマスキング戦略については BEiT v2 のスキームを参照してください。ここでは詳細を説明しません。BEiT v3 では、作成者はbatch sizeこれを 6144、つまり 2048 個のシングルモーダル テキスト、2048 個のシングルモーダル画像、2048 個のマルチモーダル画像とテキストのペアに設定します。これは典型的な対照学習よりもはるかに小さく 12batch size論文内の一連の実験の結果から、図 6.35 と図 6.32 に示すように、BEiT v3 のパフォーマンスは、CLIP の使用を含む多くの視覚的およびマルチモーダルなタスクにおいて前世代を上回っています。図 6.35 (b) に示す大規模対照学習では、CLIP が誇るゼロショット実験シナリオでも BEiT v3 が絶対的な優位性を持っています。

ここに画像の説明を挿入

図 6.34 BEiT v3 はビジュアルエンコーダ、テキストエンコーダ、フュージョンエンコーダに分かれており、ビジュアルエンコーダとテキストエンコーダをツインタワーモデルとして取り出して検索タスクに利用することができます。

上記の議論から、BEiT v3 はシンプルでシンプルであると説明でき、モデリングに MLM 損失のみを使用し、単一モーダル表現のモデリングだけでなく、セマンティック アライメントのモデリングも同時に行います。図 6.35 に示すように、BEiT v3 は、ファインチューン後の結果であっても、ゼロショットの結果であっても、検索タスクで SOTA レベルに到達できます。BEiT v3 と、前に説明した同じく MLM モデリングを採用する UNITER のパフォーマンスにこれほど大きな違いがあるのはなぜでしょうか。MLMに対する私たちのこれまでの判断は偏っていたのではないでしょうか? 著者は、主な違いは、BEiT v3 が十分に優れたビジュアル セマンティック スパース機能を使用して、画像ブロックを MLM モデリング用のスパース トークンに変換することであると考えています。これには、いくつかの利点があります。

  1. 視覚的なスパース トークンとテキスト トークンの間には本質的な違いはなく、同種の入力とみなすことができます。それらの MLM モデリングは、テキストの自己教師ありトレーニングに似ています。周知のとおり、テキスト MLM の自己教師ありタスクは現在、次の 1 つです。テキスト事前トレーニングの主流のパラダイム。
  2. 入力単位がピクチャブロックから単一トークンに変更され、学習効率が向上し、同じリソース消費の下でより多くの学習を実行できるようになりました。
  3. ビジュアル トークンに基づく予測は、ピクセル レベルの予測よりも意味的に有益です。

BEiT v3 の観点から、MLM がセマンティック融合モデリング手法であっても、セマンティック アライメントをモデル化することは不可能ではないことがわかりました。高度にセマンティックなビジュアル トークンを導入することで、クロスモーダル MLM タスクや、セマンティック アライメントを効率的に学習することもできますビジュアルトークンとテキストトークン間の意味融合関係13 この観点から、セマンティック融合の喪失は、セマンティック融合を効率的にモデル化できないことを意味するものではないため、セマンティック融合とセマンティック アライメント モデリングについての理解はさらに深まりました。この 2 つは互いに明確に区別されるわけではありませんが、密接に関連しています。 。

ここに画像の説明を挿入

図 6.35 BEiT v3 の実験結果、(a) は MSCOCO および Flick30k での微調整後の結果、(b) は Flickr30K でのゼロショットの結果です。

ビジュアルモデル

CLIP4クリップ

私たちはこれまでにCLIPの後に多くの画像テキストマッチングモデルを導入してきましたが、大量の画像テキストデータの大規模比較学習事前学習の下で、CLIPの画像意味論的整合能力はすでに非常に強力です。 CLIPをビデオに転送しますか? 毛織物? ビデオが時間軸上に展開する画像として見られる場合、画像 CLIP をビデオに移行する実践は自然であり、このアプローチは CLIP4clips [41] で検討されています。図 6.28 に示すように、作成者は画像 CLIP によって事前学習された画像 ViT モデルのパラメーターをビデオ ViT モデルに直接ロードします。ここでのビデオ ViT モデルは、実際にビデオの各フレームの特徴を個別に抽出します。これを形式化して、x ∈ RT × W × H × 3 \mathbf{x} \in \mathbb{R}^{T \times W \times H \times 3} を使用します。バツRT × W × H × 3は現在の入力ビデオを示します。Tフレームをパッチに分割し、各パッチのサイズはxi ∈ RT × KW × KH × 3 , i = 0 , ⋯ , M \mathbf{x}_{i} \in \mathbb{R}^ { T \times K_{W} \times K_{H} \times 3}、i=0,\cdots,Mバツ私はRT × KW× KH× 3=0 M[CLS] 、それを ViT の入力として受け取ります (もちろん、この前に直線化と線形マッピングが必要です)。モデルのベクトルをビデオの特徴出力として受け取り、y ∈ RT × D \mathbf{y}\in \ mathbb{R}^{T \times D}yRT × D、ここでDDD は埋め込み次元です。したがって、ビデオの各フレームは、特徴抽出のために ViT モデルを通過することと同等です。これに基づいて、著者は本書で主に次の 2 つの点を検討します。

  1. 画像 CLIP が事前トレーニングされている場合、ビデオのタイミング情報をどのようにモデル化すればよいでしょうか?
  2. 画像データとビデオデータの間の分布の違いを軽減するために、画像 CLIP はビデオデータに対して事後事前トレーニングを実行する必要がありますか?

次に 2 つの問題について検討します。

ここに画像の説明を挿入

図 6.28 CLIP4clips のネットワーク構造の模式図。
現在、ビデオ機能は $\mathbf{y} \in \mathbb{R}^{T \times D}$ であり、現時点では ViT のモデリング プロセスにタイミング モデリングはありません。固有の違い (つまり、タイミング情報) のモデリング タイミング情報も考慮する必要があります。著者は、時系列モデリングのプロセスと、類似性計算機と呼ばれるテキストの特徴をスコアリングするプロセスを組み合わせています。論文では、図 6.29 に示すように、著者は 3 つの相関計算方法を検討し、最初の方法はパラメータフリー モード (パラメータフリー型) と呼ばれ、この設定では、ビデオの特徴が時間次元で計算されます。プーリングは、集約されたビデオ粒度表現を取得した後、テキスト表現とのコサイン類似度計算を実行します。2つ目はシーケンシャルモード(Sequential型)と呼ばれる方式で、TransformerやLSTMを用いてタイミングをモデリングし、得られた映像粒度表現やテキスト表現に対してコサイン類似度計算も行います。最後の方法は Tight タイプと呼ばれ、この設定では、相関計算プロセス全体が Transformer 全体によってモデル化され、Transformer の出力が直接相関スコアとなります。パラメータの数の観点から、通常は 3 > 2 > 1 となります。

ここに画像の説明を挿入

図 6.29 ビデオ時系列をモデル化するための 3 つの異なるアプローチ。
実験結果を見てみましょう. 著者は 4 つの異なるビデオ テスト セットでテストしました. 図 6.30 に示すように、2 つの結論が見つかりました:
  1. 異なるデータセットや、meanPoolそれぞれseqLSTMseqTransf独自の包囲がある場合、より小さなデータセットでは、追加のパラメーターを導入する利点はありませんmeanPool(たとえば、MSVD データセットのビデオ数は 2000 未満で、各ビデオの長さは約 60 秒です)。LSMDC データセット (約 120,000 のビデオを含む、各ビデオの長さは 2 ~ 30 秒)、ActivityNet データセット (約 20,000 の YouTube ビデオを含む)、DiDeMo データセット (10,000 のビデオを含む) など、データ量が大きい場合、 CLIP-straight の結果seqLSTMと比較すると、同じ視覚情報であるにもかかわらず、写真とビデオの差が非常に大きいことseqTransfがわかります。そのため、ビデオをモデル化するには追加のモジュールを導入する必要があります。タイミング情報。
  2. 4 つのテスト セットすべてにおいて、パラメータ数が最も多い方法の効果はtightTransf最悪です。このモデルには、事前トレーニングされていないパラメータが多すぎるため、トレーニングにはより多くのデータ サポートが必要です。優れたモデルでは、新しいパラメータが必要になります。できる限り注意して導入する必要があります

ここに画像の説明を挿入

図 6.30 CLIP4clips でのさまざまなタイミング モデリング手法に対する複数のビデオ データセットのテスト結果。
この研究では、著者はアブレーション実験におけるいくつかの一般的なハイパーパラメータも調査しました。図 6.31 に示すように、主に最後の実験、つまり実験全体の結果に使用されるフレーム長の影響に焦点を当てます。図 6.31 (d) に示すように、使用するフレーム数が多いほど効果が向上することがわかりますが、フレーム長が 6 の場合は飽和し、フレーム長が 1 (つまり 1 枚の画像) の場合は、このときのエフェクトは、マルチフレームを使用する場合に比べて非常に大きな減衰 (約 10% ~ 20%) になります。つまり、ビデオのモデリングには、たとえ単一フレームであってもマルチフレーム情報を使用する必要があることを意味します。情報には、特定のビデオ コンテンツ情報も含まれます。では、ビデオフレームはどのように選択すればよいのでしょうか? サンプリングは必ず必要です。図 6.32 (b) に示すように、著者はサンプリング フレーム (先頭、末尾、均一サンプリング) の位置を調査しました。ほとんどの場合、均一サンプリングの方が効果的です。これも私たちの予想と一致しています。情報はビデオ全体に均一に拡散される必要があります。

ここに画像の説明を挿入

図 6.31 著者は、バッチ サイズ、学習率、フリーズ層、フレーム長などのハイパーパラメータを調査します。
最後の質問に戻りますが、写真とビデオのギャップを埋めるために、ビデオ データに対してポストプリトレーニングを実行する必要がありますか? 図 6.32 (a) に示すように、著者は HowTo100M データセット (P-PT で示される) のモデルに対して事後事前学習を実行しました。ゼロショット設定と微調整設定の両方の P-PT がこれにより、一定の効果が得られ、画像とビデオの間に実際にギャップがあることがある程度確認されます。より良い結果を得るには、ポストプレトレーニングを実行してこのギャップを減らすことが最善です。

ここに画像の説明を挿入

図 6.32 (a) 事前学習後の結果を使用するかどうかの調査、(b) ビデオ フレームのサンプリング位置の調査。

Xクリップ

私たちは FILIP の研究で画像とテキストの間のきめの細かいインタラクション モデリング手法を導入しましたが、ビデオ テキストに拡張する場合にも同様の研究があります。X-CLIP [38] はテキストとビデオのマルチグレイン モデリングです。 。図 6.33 に示すように、テキスト側の文/単語とビジュアル側のビデオ/フレームを組み合わせることで、3 つの異なる粒度を含む 4 種類の異なるペアを形成できます。

図 6.33 テキストとビデオは、3 つの異なる粒度 (粗粒、細粒、横粒) を含む 4 種類のペアを形成できます。

図 6.34 に示すように、モデルのモデリング手法の観点からは、ビジュアルエンドとテキストエンドの両方が Transformer を使用してモデル化されており、ビジュアルエンドが ViT モデルとなります。テキストとビデオのきめ細かい情報を取得するために、テキスト[CLS]の出力特徴を文粒度表現として使用するだけでなく、各位置のトークン出力特徴も単語粒度表現として使用します。視覚的な目的では、さまざまなフレーム位置で出力された Transformer フィーチャがフレーム粒度表現とみなされ、これらの表現の結果がビデオ粒度表現mean poolとみなされますそれを形式化して、v '' ∈ RD v^{\prime} \in \mathbb{R}^{D} を使用します。vRDはビデオの粒度表現を表し、t ′ ∈ RD t^{\prime} \in \mathbb{R}^{D}tRDは文の粒度表現を表し、F ∈ R n × DF \in \mathbb{R}^{n \times D}FRn × Dはフレームの粒度表現を表します。T ∈ R m × DT \in \mathbb{R}^{m \times D}TRm × Dは単語の粒度表現を表し、次に示すように 2 つのモダリティの太さ表現を相互に比較できます。
SV − S = ( ( v ' ) T ( t ' ) ) ∈ R 1 SV − W = ( T v ′ ) T ∈ R 1 × m SF − S = F t ′ ∈ R n × 1 SF − W = FTT ∈ R n × m (6-25) \begin{align} S_{VS} &= (( v^{\prime})^{\mathrm {T}}(t^{\prime})) \in \mathbb{R}^{1} \\ S_{VW} &= (Tv^{\prime} )^{\mathrm{T}} \in \mathbb{R}^{1 \times m} \\ S_{FS} &= Ft^{\prime} \in \mathbb{R}^{n \times 1 } \\ S_{FW} &= FT^{\mathrm{T}} \in \mathbb{R}^{n \times m} \end{align} \tag{6-25}SV SSV WSF - SSF - W=(( v _T (t) )R1=(テレビ_ _TR1 × m=Ft _Rn × 1=F TTRn × m( 6-25 )
粗粒比較スコアリングSV − S S_{VS}SV S数値スコアを除いて、他の細粒度および横断粒度のスコアは行列またはベクトルであり、最終的な多粒度の比較類似性スコア (マルチ-粒状対照類似性) の場合、この集計プロセスは、式 (6-26) に示すように、類似性に対する注意マトリックス (AOSM) と呼ばれます。
S V − S ′ = ( ( v ′ ) T ( t ′ ) ) ∈ R 1 S V − W ′ = ∑ i = 1 m exp ⁡ ( S V − W ( 1 , i ) / τ ) ∑ j = 1 m exp ⁡ ( S V − W ( 1 , j ) / τ ) S V − W ( 1 , i ) ∈ R 1 S F − S ′ = ∑ i = 1 n exp ⁡ ( S F − S ( i , 1 ) / τ ) ∑ j = 1 n exp ⁡ ( S F − S ( j , 1 ) / τ ) S F − S ( i , 1 ) ∈ R 1 (6-26) \begin{align} S^{\prime}_{V-S} &= ((v^{\prime})^{\mathrm {T}}(t^{\prime})) \in \mathbb{R}^{1} \\ S^{\prime}_{V-W} &= \sum_{i=1}^{m} \dfrac{\exp(S_{V-W}(1,i)/\tau)}{\sum_{j=1}^{m} \exp(S_{V-W}(1,j)/\tau)} S_{V-W}(1, i) \in \mathbb{R}^{1} \\ S^{\prime}_{F-S} &= \sum_{i=1}^{n} \dfrac{\exp(S_{F-S}(i,1)/\tau)}{\sum_{j=1}^{n}\exp(S_{F-S}(j,1)/\tau)} S_{F-S}(i,1) \in \mathbb{R}^{1} \end{align} \tag{6-26} SVSSVWSFS=(( v _T (t) )R1=i = 1メートルj = 1メートルexp ( SV W( 1 j ) / t )exp ( SV W( 1 i ) / t )SV W( 1 R1=i = 1j = 1exp ( SF - S( j ,1 ) / t )exp ( SF - S(1 ) / t )SF - S(1 )R1( 6-26 )

ここに画像の説明を挿入

図 6.34 X-CLIP の各モードは、粗粒度および細粒度の特徴をそれぞれ生成できます。相互組み合わせの後、類似性スコアの 4 つの異なるペアを生成でき、粗粒度および細粒度のスコア行列/ベクトルを生成できます。 AOSM モジュールによってスコア付けされて集計されます。

この章の最後に比較実験を行いますが、図 6.35 に示すように、著者はこれら 4 つの粒度のスコアを組み合わせて、MSR-VTT データセットでのアブレーション実験を比較します。その中には、次のようないくつかの観察があります。

  1. Exp1 から Exp4 を観察すると、細粒度の Word-Frame 比較の結果が、粗粒度の送信ビデオ比較よりも必ずしも優れているわけではないことがわかりました。著者は、比較が細粒度で完全にモデル化されている場合、一部のグローバル情報が欠落している可能性があると推測しています。粒度の高い比較は、検索には適さない可能性があります。
  2. Exp4、Exp1、および Exp7 を観察すると、きめ細かいワードフレーム比較と送信フレームのきめ細かい比較を行うと、そのパフォーマンスが粗い粒度のパフォーマンスを超える可能性があることがわかりました。つまり、きめ細かい情報だけが必要なわけではありません。モデル化されるだけでなく、粗粒度の情報も考慮する必要があります (たとえば、現時点ではテキストは文の粒度にあります)。実験 Exp1、Exp4、および Exp6、または Exp1、Exp4、および Exp10 を比較しても、同じ結論が得られます。
  3. 粗粒度、細粒度、横粒度の結果を追加すると、すべての設定で最高の結果が得られ、インスピレーションが得られます。破棄しないと、学習が不十分となり、最適な結果が得られない可能性があります。

ここに画像の説明を挿入

図 6.35 MSR-VTT データセット上の X-CLIP、異なる粒度のスコアを組み合わせた後の検索パフォーマンスを比較。

0x06 旅の終わり

これは、多岐に渡る長い旅です。読者であり著者であるあなたと私のおかげで、私たちはここに一緒に到達することができます。私たちの記事は終わりに近づいています。この記事では、いくつかの刺激的な研究を紹介しました。紙面の制限により、著者が膨大なマルチモーダル文献を整理することは不可能です。要約として、現在の一般的なマルチモーダル マッチング モデルの最適化ポイントを大まかに要約できます。いくつかの方向性を表 7.1 に示します。太字は、それらがこの記事で紹介されたものであることを示します。

表 7.1 一般的なマルチモーダルマッチングモデルの最適化の方向性と代表的な作業。
マルチモーダルマッチングモデルの最適化の方向性 代表的な施工例
ファイングレイン/マルチグレイン モデリング フィリップ[39]、X-クリップ[38]…
ネガティブサンプルとバッチサイズの関係を切り離す / 事前トレーニングを加速する WenLan 1.0 [18]、WenLan 2.0、FLIP [24]…
マルチビューデータを利用する アーニービル 2.0 [19]…
スケーリング クリップ[15]、反転整列[17]…
セマンティックアライメント + セマンティック融合の並べ替え アルベフ[40]、ブリップ…
統合されたマルチモーダルフレームワーク フローレンス、FLAVA、BEiT v3、コカ…
画像クリップはビデオクリップに移行されました CLIP4クリップ[41]…
視覚的なスパーストークン化 VideoBERT [42]、BEiTBEiT v2BEiT v3VQ-VAE [45]、BEVT、VIMPAC、dVAE…
セマンティック融合モデル UNITER [43]、OSCAR、UniVL…
より優れたセマンティック調整モデル リト[44]…
多言語モデル ウーコン、チャイニーズCLIP、ウェンラン
損失関数の最適化 クリップライト [70]

人間の知覚は外部環境におけるマルチモーダル情報の相互作用に基づいて得られますが、マルチモーダル情報は人間にとって最も自然な入力モードと言え、より深いレベルの人工知能への道筋となる可能性もあります。著者はマルチモーダル モデルの複雑さをよく知っているため、この記事はマルチモーダル意味マッチング モデルの簡単な概要にすぎません。著者の限られたエネルギーと能力のせいで、よく読まれていない優れた作品がたくさんあります。どこかが読者の役に立つ可能性があれば、この記事を書くという著者の目的は達成されたことになります。

これらのタスクを実際にビジネスに適用する場合、これらの学術論文の多くは産業アプリケーションに直接転送することはできないと著者は考えていますが、その理由は非常に単純で、ビジネス シナリオと学術シナリオの間にはギャップが多すぎるからです。検索シナリオを例として、いくつかの例を示します。

  1. 私たちのテキスト側のほとんどは、学術論文のキャプション テキストのようなものではなく、ユーザーのクエリです。クエリとキャプションの間には大きな隔たりがあり、異なる企業間のユーザー クエリにも大きな違いがあります。あるビジネスで機能するモデルや手法が、別のビジネスでも機能するとは限らないため、読者は、この記事がベンチマークに関する学術論文の指標に特別な注意を払っているのではなく、可能性を掘り出そうとしていることがわかるでしょう。インスピレーションは、ビジネスと学術の違いを理解するのに有益であり、ビジネス知識を組み合わせた後、ビジネス モデルの最適化をより効果的に推進するのに役立ちます。

  2. テキスト側に明らかな差があるだけでなく、学術データとビジネスデータであるビデオ/写真の間にも大きな違いがあります。ビジネスでは、いわゆる弱い視覚的意味論データがより多く存在するため、いくつかの優れたデータが見つかります。 -粒度の高いメソッドとマルチ粒度のメソッド 試してみる価値は非常にあります。

  3. また、ビジネス データが大規模であるため、多くの手法を妥当なコストで推進することができず、オンライン化する方法が制限されており、多くの学術的な序文の調査を実装する必要があり、多くのアーキテクチャの最適化と手法の簡素化を考慮する必要があります。

これは終わりではありません。新しい章で多角的な旅を続ける機会があることを願っています。道は長く、私はそれを上下に探します。

付録 A. データセットの構成

手動でラベル付けされたデータセット

データセット データ量
ココキャプション [11] 533K
ビジュアルゲノム高密度キャプション(VGキャプション) [12] 506万
コンセプトキャプション(CC) [13] 3.0M
SBU キャプション [14] 990K

事前トレーニングデータセット

データセット データ量 開いているかどうか データの種類
WIT-400M [15] 400M プライベート 画像テキスト
ウーコン [16] 100M 一般公開&中国語 画像テキスト
アライン [17] 1.8B プライベート 画像テキスト
ウェンラン [18] 30M プライベート 画像テキスト
アーニービル 2.0 [19] 1.5B プライベート 画像テキスト
リト [20] 4B プライベート 画像テキスト
YFCC100M [21] 100M 一般公開されている 画像テキスト
CC12M [22] 12M 一般公開されている 画像テキスト
HowTo100M [23] 100M 一般公開されている ビデオテキスト
LAION-400M [24] 400M プライベート 画像テキスト
ライオン-2B [24] 2b プライベート 画像テキスト

参照

[1]. https://fesianxu.github.io/2022/12/24/video- Understanding-20221223/、https://blog.csdn.net/LoseInVain/article/details/105545703、4,000 ワードの長文テキストトークビデオ理解

[2]. https://fesianxu.github.io/2022/12/24/general-video-analysis-1-20221224/、ビデオ分析とマルチモーダル フュージョンの 1 つ、マルチモーダル フュージョンが必要な理由

[3]。https://github.com/basveeling/pcam、PatchCamelyon (PCam)

[4]。https://github.com/phelber/EuroSAT、EuroSAT : Sentinel-2 による土地利用と土地被覆の分類

[5]. https://ai.facebook.com/blog/hateful-memes-challenge-and-data-set/, Hateful Memes Challenge and dataset for research on harmful multimodal content

[6]. Yu, F., Tang, J., Yin, W., Sun, Y., Tian, H., Wu, H., & Wang, H. (2021, May). Ernie-vil: Knowledge enhanced vision-language representations through scene graphs. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 35, No. 4, pp. 3208-3216). Short for ERNIE-VIL 1.0

[7]. https://www.bilibili.com/video/BV1644y1S7H3, 我想,这以后便是在农村扎根了吧

[8]. https://www.bilibili.com/video/BV1Mg411J7kp, 自制钓鱼佬智能快乐竿

[9]. https://fesianxu.github.io/2022/12/24/nonlinear-struct-video-20221224/, https://blog.csdn.net/LoseInVain/article/details/108212429, 基于图结构的视频理解——组织视频序列的非线性流

[10]. Mao, Feng, et al. “Hierarchical video frame sequence representation with deep convolutional graph network.” Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[11]. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ar, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: ECCV (2014)

[12]. Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L.J., Shamma, D.A., et al.: Visual genome: Connecting language and vision using crowdsourced dense image annotations. IJCV (2017)

[13]. Sharma, P., Ding, N., Goodman, S., Soricut, R.: Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In: ACL (2018)

[14]. Ordonez, V., Kulkarni, G., Berg, T.L.: Im2text: Describing images using 1 million captioned photographs. In: NeurIPS (2011)

[15]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021, July). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (pp. 8748-8763). PMLR. Short for CLIP

[16]. Gu, J., Meng, X., Lu, G., Hou, L., Niu, M., Xu, H., … & Xu, C. (2022). Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework. arXiv preprint arXiv:2202.06767. short for WuKong

[17]. Jia, C., Yang, Y., Xia, Y., Chen, Y. T., Parekh, Z., Pham, H., … & Duerig, T. (2021, July). Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning (pp. 4904-4916). PMLR. Short for ALIGN

[18]. Huo, Y., Zhang, M., Liu, G., Lu, H., Gao, Y., Yang, G., … & Wen, J. R. (2021). WenLan: Bridging vision and language by large-scale multi-modal pre-training. arXiv preprint arXiv:2103.06561. short for WenLan 1.0

[19]. Shan, B., Yin, W., Sun, Y., Tian, H., Wu, H., & Wang, H. (2022). ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training. arXiv preprint arXiv:2209.15270. short for ERNIE-VIL 2.0

[20]. Zhai, X., Wang, X., Mustafa, B., Steiner, A., Keysers, D., Kolesnikov, A., & Beyer, L. (2022). Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18123-18133). Short for LiT

[21]. Thomee, B., Shamma, D. A., Friedland, G., Elizalde, B., Ni, K., Poland, D., … & Li, L. J. (2016). YFCC100M: The new data in multimedia research. Communications of the ACM, 59(2), 64-73.

[22]. Changpinyo, S., Sharma, P., Ding, N., & Soricut, R. (2021). Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3558-3568).

[23]. Miech, A., Zhukov, D., Alayrac, J. B., Tapaswi, M., Laptev, I., & Sivic, J. (2019). Howto100m: Learning a text-video embedding by watching hundred million narrated video clips. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 2630-2640).

[24]. Li, Y., Fan, H., Hu, R., Feichtenhofer, C., & He, K. (2022). Scaling Language-Image Pre-training via Masking. arXiv preprint arXiv:2212.00794. Short for FLIP

[25]. https://blog.csdn.net/LoseInVain/article/details/116377189, 从零开始的搜索系统学习笔记

[26]. https://blog.csdn.net/LoseInVain/article/details/126214410, 【见闻录系列】我所理解的搜索业务二三事

[27]. https://blog.csdn.net/LoseInVain/article/details/125078683, 【见闻录系列】我所理解的“业务”

[28]. Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). A simple framework for contrastive learning of visual representations. In International conference on machine learning (pp. 1597-1607). PMLR. short for SimCLR

[29]. https://blog.csdn.net/LoseInVain/article/details/125194144, 混合精度训练场景中,对比学习损失函数的一个注意点

[30]. Noroozi, M. and Favaro, P. Unsupervised learning of visual representations by solving jigsaw puzzles. In European Conference on Computer Vision, pp. 69–84. Springer, 2016. short fot jigsaw puzzles

[31]. Zhang, R., Isola, P., and Efros, A. A. Colorful image colorization. In European conference on computer vision, pp. 649–666.
Springer, 2016. short for colorization

[32]. Gidaris, S., Singh, P., & Komodakis, N. (2018). Unsupervised representation learning by predicting image rotations. arXiv preprint arXiv:1803.07728. short for rotations

[33]. He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9729-9738). short for MoCo

[34]. Wu, Z., Xiong, Y., Yu, S. X., & Lin, D. (2018). Unsupervised feature learning via non-parametric instance discrimination. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3733-3742). short for Memory Bank

[35]. https://blog.csdn.net/LoseInVain/article/details/120039316, Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题

[36]. He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009). short for MAE

[37]. Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021. short for ViT

[38]. Ma, Y., Xu, G., Sun, X., Yan, M., Zhang, J., & Ji, R. (2022, October). X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval. In Proceedings of the 30th ACM International Conference on Multimedia (pp. 638-647). Short for X-CLIP

[39]. Yao, L., Huang, R., Hou, L., Lu, G., Niu, M., Xu, H., … & Xu, C. (2021). Filip: Fine-grained interactive languageimage pre-training. arXiv preprint arXiv:2111.07783. short for FILIP

[40]. Li, J., Selvaraju, R., Gotmare, A., Joty, S., Xiong, C., & Hoi, S. C. H. (2021). Align before fuse: Vision and language representation learning with momentum distillation. Advances in neural information processing systems, 34, 9694-9705.

[41]. Luo, H., Ji, L., Zhong, M., Chen, Y., Lei, W., Duan, N., & Li, T. (2022). CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning. Neurocomputing, 508, 293-304. short for CLIP4clips

[42]. Sun, C., Myers, A., Vondrick, C., Murphy, K., & Schmid, C. (2019). Videobert: A joint model for video and language representation learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 7464-7473). Short for VideoBERT

[43]. Chen, Y. C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., … & Liu, J. (2020, August). Uniter: Universal imagetext representation learning. In European conference on computer vision (pp. 104-120). Springer, Cham. Short for UNITER

[44]. Zhai, X., Wang, X., Mustafa, B., Steiner, A., Keysers, D., Kolesnikov, A., & Beyer, L. (2022). Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18123-18133). Short for LiT

[45]. Van Den Oord, Aaron, and Oriol Vinyals. “Neural discrete representation learning.” Advances in neural information processing systems 30 (2017). short for VQ-VAE

[46]. https://fesianxu.github.io/2022/12/24/discrete-latent-representation-20221223/, 【论文极速读】VQ-VAE:一种稀疏表征学习方法

[47]. Bao, Hangbo, Li Dong, Songhao Piao, and Furu Wei. “Beit: Bert pre-training of image transformers.” arXiv preprint arXiv:2106.08254 (2021). short for BEiT

[48]. Vahdat, Arash, Evgeny Andriyash, and William Macready. “Dvae#: Discrete variational autoencoders with relaxed boltzmann priors.” Advances in Neural Information Processing Systems 31 (2018). short for dVAE

[49]. Peng, Zhiliang, Li Dong, Hangbo Bao, Qixiang Ye, and Furu Wei. “Beit v2: Masked image modeling with vector-quantized visual tokenizers.” arXiv preprint arXiv:2208.06366 (2022). short for BEiT v2

[50]. Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9650-9660). short for DINO

[51]. Tong, Zhan, Yibing Song, Jue Wang, and Limin Wang. “Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training.” arXiv preprint arXiv:2203.12602 (2022). short for VideoMAE

[52]. https://fesianxu.github.io/2023/01/20/semantic-label-20230120/, 语义标签(Semantic label)与多模态模型的一些关系

[53]. Lu, Jiasen, Dhruv Batra, Devi Parikh, and Stefan Lee. “Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks.” arXiv preprint arXiv:1908.02265 (2019). short for ViLBERT

[54]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020). short for ERNIE-VIL 1.0

[55]. Wang, R., Chen, D., Wu, Z., Chen, Y., Dai, X., Liu, M., … & Yuan, L. (2022). Bevt: Bert pretraining of video transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 14733-14743). short for BEVT

[56]. https://blog.csdn.net/LoseInVain/article/details/114958239, 语义标签(Semantic label)与多模态模型的一些关系

[57]. Chen, Y. C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., … & Liu, J. (2020, September). Uniter: Universal image-text representation learning. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXX (pp. 104-120). Cham: Springer International Publishing. short for UNITER

[58]. https://pytorch.org/docs/stable/distributed.html, DISTRIBUTED COMMUNICATION PACKAGE - TORCH.DISTRIBUTED

[59]. https://amsword.medium.com/gradient-backpropagation-with-torch-distributed-all-gather-9f3941a381f8, Gradient backpropagation with torch.distributed.all_gather

[60]. https://blog.csdn.net/LoseInVain/article/details/103870157, 一些深度学习中的英文术语的纪录

[61]. https://blog.csdn.net/LoseInVain/article/details/122735603, 图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型

[62]. https://github.com/facebookresearch/moco/blob/78b69cafae80bc74cd1a89ac3fb365dc20d157d3/moco/builder.py#L53

[63]. https://blog.csdn.net/LoseInVain/article/details/105808818, 数据并行和模型并行的区别

[64]. Fei, Nanyi, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu et al. “WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model.” arXiv preprint arXiv:2110.14378 (2021). short for WenLan v2

[65]. https://blog.csdn.net/LoseInVain/article/details/121699533, WenLan 2.0:一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹

[66]. Li, Junnan, Ramprasaath Selvaraju, Akhilesh Gotmare, Shafiq Joty, Caiming Xiong, and Steven Chu Hong Hoi. “Align before fuse: Vision and language representation learning with momentum distillation.” Advances in Neural Information Processing Systems 34 (2021). short for ALBEF

[67]. https://github.com/salesforce/ALBEF/issues/22

[68]. Wang, Wenhui, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal et al. “Image as a foreign language: Beit pretraining for all vision and vision-language tasks.” arXiv preprint arXiv:2208.10442 (2022). short for BEiT v3

[69]. Bao, H., Wang, W., Dong, L., Liu, Q., Mohammed, O. K., Aggarwal, K., … & Wei, F. (2021). Vlmo: Unified vision-language pre-training with mixture-of-modality-experts. arXiv preprint arXiv:2111.02358.

[70]. Shrivastava, A., Selvaraju, R. R., Naik, N., & Ordonez, V. (2021). CLIP-Lite: information efficient visual representation learning from textual annotations. arXiv preprint arXiv:2112.07133. short for CLIP-Lite


  1. 相同的文本符号所代表的抽象含义并不是一成不变的,而是会随着人类社会的地域,事件,时间等发生变化,也就是说文本的语义是变化着的。举个例子,苹果在过去只是指的食物苹果,在现在又多出了苹果(产品,公司)的语义,黄色在过去只是颜色代表,现在在国内有着情色的含义,而在日本,这个黄色则由桃色,粉色(ピンク)替代了。 ↩︎

  2. 光栅化的图片的基础组成部分是像素,而矢量图则可以通过公式进行表达。 ↩︎

  3. 有两种方法可供使用:一、原图 t t t与原图的变换 t ′ ∼ T t^{\prime} \sim \mathcal{T} tT作为一对正样本对 < t , t ′ > <t, t^{\prime}> <t,t>;二、原图 t t t在同一个图片变换 T \mathcal{T} T下产生两个衍生图片 t ′ ∼ T t^{\prime} \sim \mathcal{T} tT , t ′ ′ ∼ T t^{\prime \prime} \sim \mathcal{T} t′′T,将这两个衍生图片视为一对正样本对 < t ′ , t ′ ′ > <t^{\prime}, t^{\prime \prime}> <t,t′′>。前者称之为非对称处理,由于会影响性能而仅在消融实验中采用,SimCLR采用的是后者,也称之为对称性处理。 ↩︎

  4. 全称是Normalized Temperature-scaled Cross Entropy,标准化温度系数放缩交叉熵损失。 ↩︎

  5. 由于此处的key编码器采用动量更新,因此也被称之为动量编码器。 ↩︎

  6. 笔者认为采用VQ-VAE应该也是可以的,未曾试验过。 ↩︎

  7. 正因为视频同时有着空间和时间上的冗余度,在视频压缩中同时也有时间和空间维度的信息压缩。 ↩︎

  8. 具象概念:现实生活中存在的物体的概念,如苹果,老虎,电脑等。 抽象概念:非现实生活中真实存在的物体概念,如自由、和平、爱情等。 ↩︎

  9. 上下文提示词,在其他文献也被称之为prompt,我们本文不区分这两个术语。 ↩︎

  10. 这种做法在NLP里面也是一种经典做法,比如 f ( k i n g ) − f ( m a l e ) ≈ f ( q u e u e ) f(king)-f(male) \approx f(queue) f(king)f(male)f(queue),这一定程度代表了embedding的语义对齐能力。 ↩︎

  11. 在Multiway Transformer原论文 [69] 中,V-FFNL-FFN被称之为“视觉专家”和“文本专家”,采用的是Mixture of Multiple Experts (MMoE) 的思想。 ↩︎

  12. CLIP的batch size高达32k,ALIGN的batch size大概是16k。 ↩︎

  13. 注意のため、ここでの説明は「視覚的概念とテキスト概念の整列」ではなく、「視覚的トークンとテキストトークンの整列」です。著者は主に、スパースなビジュアルトークンによって暗示されるセマンティクスは視覚的な概念のサブセットであるべきであると考えています。 、視覚的なトークンとテキストのトークンの位置合わせは、2 つのモダリティの意味上の位置合わせを推測しません。↩︎

おすすめ

転載: blog.csdn.net/lihui49/article/details/131221428