Transformer Vision (2) || ViT-B/16 ネットワーク構造

1. 概略図

画像を下図のように分割し、下図の0,1,2,...,8,9は画像の位置情報を記録するために使用します。

画像-20220513160536511


画像-20220513160953622

2.Transformer Encoder構造図(L×はL回繰り返し積層することを指します)

画像-20220513161059924


3. 導入プロセス:

画像-20220513180934822

より詳細なエンコーダのブロック図

画像-20220513181959875

上図の MLP ブロック図は次のとおりです。

画像-20220513182200573

4.MLPヘッド層

画像-20220513183030719

注: Transformer Encoder の前に Dropout レイヤーがあり、その後に Layer Norm レイヤーがあります。

独自のネットワークをトレーニングする場合、MLP ヘッド層を完全に接続された層として単純に考えることができます。

5. ViT-B/16 ネットワーク構造の概要

画像-20220513183459106

その中には: エンコーダーブロック

画像-20220513181959875

その中には: MLP ブロック

画像-20220513182200573

おすすめ

転載: blog.csdn.net/qq_56039091/article/details/124785401