https://www.bilibili.com/video/BV18Q4y1o7NY
只有c0被保留下来并做最后的softmax分类
这个公式表示的很清楚了
从 transformer cls_token说开去:
transformer的encoder和conv encoder提取出的编码格式就不同。
transformer的编码格式:num_patches(+1,由于有特殊token在前,例如ViT中的分类token,DPT中的read token),embedding_dim
怎么从transformer的编码返回到原图?
其实是一件非常自然的事
作者提出了三种read策略:
1.直接把read token忽略 2.resnet的做法——把read token加到其他token上3.dense net的做法:把read token和其他token concat,然后对每个token仿射变换到embedding_dim