Introduction

我现在很喜欢读introduction以及literature review，因为很多观点都是总结。比如这篇文章认为传统的conv+pooling的结构用于图片分类效果很好，现在人们想要做dense prediction，逐像素标注，也就是不止知道这个图片是一只鸟还要知道，它在哪，轮廓。不止知道这是卧室还要知道哪些像素是床，哪些是窗户。

由于图片分类识别率很高，于是人们想要把conv+pooling改的可以完成dense pred任务。那么什么结构应该保留，什么结构不需要。什么结构有什么作用，就是个open question。

作者认为，pooling是为了扩大感受野，但是会造成模糊，毕竟上采样，对于逐像素标注不是很友好。这里插一句，很多网络都为了解决这个模糊现象。比如deeplab+CRF，比如直接把超像素块扔到网络里保护边缘信息，比如deconv，segnet。还有专门将RGB与D通道分开处理，最后将multy scale特征图结合的，主要是multy scale的特征图的应用汇带来更精确地pred效果。以及一手local信息，一手global的，不让他们混了。都是从classify向dense pred跑的过程。感觉introduction不白看。私以为，pooling的作用不仅仅是为了全局，而且还是应对旋转，平移。我认为论文中的方法不能很好的应对平移旋转。

好了，那么问题来了，我怎么既要全局，局部还不模糊。

作者用了如下方法。分辨率的确不会下降，但是能否保持住局部信息，这个我质疑。

The presented module uses dilated convolutions to systematically aggregate multis-cale contextual information without losing resolution. The architecture is based on the fact that dilated convolutions support exponential expansion of the receptive field without loss of resolution or coverage.

网络两个创新点：