一、Unet 网络结构

U-Net 如下图所示，是一个 encoder-decoder 结构，左边一半的 encoder 包括若干卷积，池化，把图像进行下采样，右边的 decoder 进行上采样，恢复到原图的形状，给出每个像素的预测。
在这里插入图片描述
编码器有四个子模块，每个子模块包含两个卷积层，每个子模块之后有一个通过 maxpool 实现的下采样层。输入图像的分辨率是 572x572, 第 1-5 个模块的分辨率分别是 572x572, 284x284, 140x140, 68x68 和 32x32。由于卷积使用的是 valid 模式，故一个子模块的分辨率等于（前一个子模块的分辨率-4）/ 2。

解码器包含四个子模块，分辨率通过上采样操作依次上升，直到与输入图像的分辨率一致（由于卷积使用的是 valid 模式，实际输出比输入图像小一些）。该网络还使用了跳跃连接，将上采样结果与编码器中具有相同分辨率的子模块的输出进行连接，作为解码器中下一个子模块的输入。

架构中的一个重要修改部分是在上采样中还有大量的特征通道，这些通道允许网络将上下文信息传播到具有更高分辨率的层。因此，拓展路径或多或少地与收缩路径对称，并产生一个 U 形结构。

在该网络中没有任何完全连接的层，并且仅使用每个卷积的有效部分，即分割映射仅包含在输入图像中可获得完整上下文的像素。该策略允许通过重叠平铺策略对任意大小的图像进行无缝分割，如图所示。为了预测图像边界区域中的像素，通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型的图像非常重要，否则分辨率将受到 GPU 内存的限制。

二、overlap-tile 策略

Unet 使用一种称为 overlap-tile 的策略，使得任意大小输入的图片都可以获得一个无缝分割。over-tile 策略如图所示：
在这里插入图片描述
该策略的思想是：对图像的某一块像素点（黄框内部分）进行预测时，需要该图像块周围的像素点（蓝色框内）提供上下文信息（context），以获得更准确的预测。

这样的策略会带来一个问题，图像边界的图像块没有周围像素，因此作者对周围像素采用了镜像扩充。下图中红框部分为原始图片，其周围扩充的像素点均由原图沿白线对称得到。这样，边界图像块也能得到准确的预测。

另一个问题是，这样的操作会带来图像重叠问题，即第一块图像周围的部分会和第二块图像重叠。因此作者在卷积时只使用有效部分（valid part of each convolution），虽然卷积的时候会用到周围的像素点（蓝色框内），但最终传到下一层的只有中间原先图像块（黄色框内）的部分（可理解为不加padding）。

『UNet』UNet学习

一、Unet 网络结构

二、overlap-tile 策略

猜你喜欢