CNN和Self-Attention的比较理解:
- 对于CNN而言,越深的网络关注的区域越大,因为其每一层网络都相当于不断的整合之前的信息。以3×3卷积为例,如下图所示:蓝色方框表示能看到原始图像多大的区域。黄色方框表示原始图像。
- CNN每一层都必须做的非常好,这样结果才能好。
- Transformer相比于CNN,只需要一层就可以达到很深的CNN才能考虑到的全局信息。一层顶CNN十几层。
- CV不像NLP每一个句子有单词可以做成一个个小的token,因此需要把其特征做成N等份,将每一等份拉长为一个向量,之后通过Transformer对每个向量进行重构,让每个token知道它上面是什么,下面是什么,远处是什么···
- Transformer只有在大量图像数据的加持下精度才会比CNN高,否则大部分工程项目还是建议用CNN。
名词解释:
- patch