事前トレーニングされた ViT コレクション

事前トレーニング済みの ViT 仕上げ

初めてピッチングの経験がなかったので、より大きなバックボーンを選択したため、実験全体に非常に時間がかかりました~~~

最近、適切なベースラインを選択することの重要性を痛感し、事前学習済みの VIT をいくつか読んでここにまとめました。次回作で調整できることを願っています。

日付

タイトル: 注意によるデータ効率の高い画像変換と蒸留のトレーニング

Deit は蒸留学習を使用して、教師ネットワーク内の情報を蒸留および圧縮します。このモデルでは、蒸留情報を収集するために追加の dist トークン (対応する位置の埋め込みを含む) を導入しますが、それ以外の場合、構造は変更されません。また、出力結果は元のクラストークンから2つのトークンの平均値に変わります。
日付

DINO(自己蒸留・ラベルなし)

自己監視型ビジョントランスフォーマーの新たな特性

興味深い自己トレーニング方法で、その名前は Chrome の小さな恐竜、Dino を思い出させます。

著者は、自己蒸留によってトレーニングされた ViT には、教師ありトレーニングされた ViT にはほとんど存在しない特定の画像意味情報が含まれていることを発見しました。さらに、ViT-small の自己学習によって得られた特徴を使用すると、単純な k-NN 分類のみを使用してかなりの結果を達成できます。同時に、著者は、より小さなパッチ ブロックを使用するとネットワーク パフォーマンスを向上させることができるという興味深い実験結果を示しました。

全体の方法も非常に簡単で、学生ネットワークと教師ネットワークの初期パラメータは同じであり、学生ネットワークはトレーニング中に自然に更新され、教師ネットワークは学生ネットワークパラメータのEMAに従って更新されます。損失関数は、2 つの間の相互エントロピーを計算することです。

注目すべき点は 2 つあります。1 つ目はネットワークの入力です。生徒ネットワークの入力は解像度の低い複数のローカル画像であり、教師ネットワークは異なるビューの 2 つのグローバル画像を入力します。クロス エントロピーを最適化するプロセスは、実際には、ネットワーク学習のローカルとグローバルの対応能力を最適化します。

もう 1 つのポイントは、モデルの崩壊を防ぐために、ネットワークの出力が直接的な結果ではなく、中心のシャープネスであることです。

具体的には、中心演算は実際にはネットワーク出力に特定のバイアスを追加するものとみなすことができます:
gt ( x ) ← gt ( x ) + c g_t(x) \leftarrow g_t(x) + cgバツgバツ+c このうち
、c は EMA を通じて更新されます。
c ← mc + ( 1 − m ) 1 B ∑ i = 1 B g θ t ( xi ) c \leftarrow mc + (1-m)\frac{1}{B} \ sum^{B}_{i=1} {g_{\theta_t}(x_i)}cマック_+( 1メートルB1i = 1Bgバツ私は)
シャープネスとは、ソフトマックスを計算する際に温度係数を小さく設定することを意味します。

ディノ

ベイト

BEIT: 画像変換器の BERT 事前トレーニング

この論文を書いた動機は ViT の動機とやや似ており、どちらも NLP のタスクと手法に触発され、CV 分野に適応させたものです。に似ている:

トランス -> ViT

バート -> ベイト

興味深いことに、これは CV 事前トレーニング モデルとしても使用され、Kaiming の MAE に非常に似ているマスクされたパッチからも復元されます。違いは、MAE はマスクされたパッチを直接再構築して元のイメージを復元しようとするのに対し、BEiT はマスクされたトークンを予測しようとすることです。

ベイト

このメソッドの全体的な構造は複雑ではありません。

入力ストリームは 2 つの部分に分かれています: 1. 画像を画像トークナイザーに通してビジュアル トークンを取得します; 2. ViT の処理方法と同様に、画像はパッチに処理されますが、ここではカバー部分にランダム マスクが追加されますトランスに入る前のパッチの。トレーニング プロセス全体のタスクはマスク イメージ モデリング (MIM) です。これは、より良い視覚的特徴表現を取得するためのネットワーク学習を通じてマスク領域の視覚トークンを予測するなどの口実タスクです (おそらく BERT の設定と同様です)。 CV タスクの方が優れているように感じます (直接の MAE はありません)。

VIsual Tokenizer は事前トレーニングされたモデルを使用するため、BEiT をトレーニングする場合、トークナイザー部分を使用してビジュアル トークンを取得するだけで済み、デコード再構成プロセスは必要ないことに注意してください。

マスクされたオートエンコーダーはスケーラブルな視覚学習者です

何開明氏の論文はいつも読んでいて新鮮です。

先ほど紹介した BEiT と同様に、MAE も BERT の「穴埋め」トレーニング方法を模倣しています。違いは、MAE の方が「空白を埋める」という表現に沿っていることです。入力画像をパッチに処理し、一部をランダムにマスクした後、残りのパッチをエンコーダに直接入力し、マスクされたパッチをすべて入力します。トークンと取得したトークンをエンコーダとデコーダに渡して、元の画像を再構築します。この方法でトレーニングされたエンコーダは強力な表現能力を備えており、全体のマスク率が 95% に達した場合でも良好な再構成結果を達成できます。

前
MAE-res

おすすめ

転載: blog.csdn.net/qq_45802280/article/details/134572591