次のマークが読み取られているかどうか
画像は 16X16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー[完了] メモ: 2022.11.18
CrossViT: 画像分類用クロスアテンション マルチスケール ビジョン トランスフォーマー[完了] メモ: 2022.11.19
Swin Transformer: シフト ウィンドウを使用した階層型ビジョン トランスフォーマー
ECA-Net: ディープ畳み込みニューラル ネットワークの効率的なチャネル アテンション
Pyramid Vision Transformer: 畳み込みのない高密度予測のための多用途のバックボーン
トークンからトークンへの ViT: ImageNet でビジョン トランスフォーマーをゼロからトレーニング
マルチスケールビジョントランスフォーマー
ビジョントランスフォーマーのスケーリング
ビジョントランスフォーマーの空間次元を再考する
DeepViT: より深いビジョントランスフォーマーに向けて
ビジョントランスフォーマーの条件付き位置エンコーディング