CV领域Transformer之Self-Attention零基础学习

CNN和Self-Attention的比较理解:

  • 对于CNN而言,越深的网络关注的区域越大,因为其每一层网络都相当于不断的整合之前的信息。以3×3卷积为例,如下图所示:蓝色方框表示能看到原始图像多大的区域。黄色方框表示原始图像。

  • CNN每一层都必须做的非常好,这样结果才能好
  •  Transformer相比于CNN,只需要一层就可以达到很深的CNN才能考虑到的全局信息。一层顶CNN十几层。
  • CV不像NLP每一个句子有单词可以做成一个个小的token,因此需要把其特征做成N等份,将每一等份拉长为一个向量,之后通过Transformer对每个向量进行重构,让每个token知道它上面是什么,下面是什么,远处是什么···
  • Transformer只有在大量图像数据的加持下精度才会比CNN高,否则大部分工程项目还是建议用CNN

名词解释:

  • patch

Supongo que te gusta

Origin blog.csdn.net/qq_42308217/article/details/122363241
Recomendado
Clasificación