序文
この記事は、CV フィールドの古典的なバックボーン モデルのチート シート (1) の続きです。また、いくつかの興味深いバックボーン モデルを記録します。
モデル
ダイナミキサー
ICML 2022
DynaMixer: A Vision MLP Architecture with Dynamic Mixing
Code: https://github.com/ziyuwwang/DynaMixer、2022.8.5 事前トレーニングの重みはまだ発表されていません。
ブロック疑似コード、元の論文のソース。
###### initializaiton #######
proj_c = nn.Linear(D, D)
proj_o = nn.Linear(D, D)
###### code in forward ######
def dyna_mixer_block(self, X):
H, W, D = X.shape
# row mixing
for h = 1:H
Y_h[h,:,:] = DynaMixerOp_h(X[h,:,:])
# column mixing
for w = 1:W
Y_w[:,w,:] = DynaMixerOp_w(X[:,w,:])
# channel mixing
Y_c = proj_c(X)
Y_out = Y_h + Y_w + Y_c
return proj_o(Y_out)