Vision Transformer的Pytorch源码各模块实现

其实看ViT网络代码主要是学会最基础的transformer模型搭建,是CV从业者必须要走一段路。在明白transformer原理之后(具体参考我之前的两篇博文:CV领域Transformer之Self-Attention原生理解Transformer-Encoder & Decoder细节详解(以DETR为例),搭建ViT可以说是信手拈来。整个ViT网络无非就是卷积层和Multi-Head Self-attention的搭积木,如下所示:

  • ViT网络的输入图像尺寸必须为固定尺寸,否则需要自己提前resize好。
  • Class Token和Position Embeddin

猜你喜欢

转载自blog.csdn.net/qq_42308217/article/details/122854830