从vision transformer的cls_token说开去(包含DPT)

在这里插入图片描述
在这里插入图片描述
https://www.bilibili.com/video/BV18Q4y1o7NY
只有c0被保留下来并做最后的softmax分类
这个公式表示的很清楚了

在这里插入图片描述
从 transformer cls_token说开去:
在这里插入图片描述transformer的encoder和conv encoder提取出的编码格式就不同。
transformer的编码格式:num_patches(+1,由于有特殊token在前,例如ViT中的分类token,DPT中的read token),embedding_dim

怎么从transformer的编码返回到原图?
其实是一件非常自然的事
在这里插入图片描述
在这里插入图片描述
作者提出了三种read策略:
1.直接把read token忽略 2.resnet的做法——把read token加到其他token上3.dense net的做法:把read token和其他token concat,然后对每个token仿射变换到embedding_dim
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_44065334/article/details/120608707