课程五学习笔记:如何训练ViT模型?DeiT算法解析

1. Vision Transformer模型回顾

  • Class Token目的:以NLP的方式做分类问题。以一个虚拟的Patch去关注图像中其他的Patch,来获得图像中综合的信息,通过和Classifier的连接,反向传播优化我们的Class Token。
  • Position Embedding 目的:在做Patch-Embed的时候,缺少了位置编码信息,加上之后,辅助模型更好的训练。

Guess you like

Origin blog.csdn.net/qq_37486501/article/details/121762152