1. 概略図
画像を下図のように分割し、下図の0,1,2,...,8,9は画像の位置情報を記録するために使用します。
2.Transformer Encoder構造図(L×はL回繰り返し積層することを指します)
3. 導入プロセス:
より詳細なエンコーダのブロック図
上図の MLP ブロック図は次のとおりです。
4.MLPヘッド層
注: Transformer Encoder の前に Dropout レイヤーがあり、その後に Layer Norm レイヤーがあります。
独自のネットワークをトレーニングする場合、MLP ヘッド層を完全に接続された層として単純に考えることができます。
5. ViT-B/16 ネットワーク構造の概要
その中には: エンコーダーブロック
その中には: MLP ブロック