Unet:Convolutional Networks for Biomedical Image Segmentation拜读

0、文章链接

https://arxiv.org/pdf/1505.04597.pdf

1、网络结构

网络模型结构看起来像U字母。该网络由一个下采样过程(左半部分)和一个上采样过程(右半部分)组成。
在这里插入图片描述

1.1、下采样过程

典型的卷积神经网络结构。四组相同的下采样,组成:

  • 两个3*3卷积层(unpadded方式)
  • ReLU激活
  • 2*2 最大池化层(步长为2)
    每组下采样后,都会加倍特征通道数(以两倍的方式)。

1.2、上采样过程

同样的四组上采样,组成:

  • 1个2*2上卷积
  • 下采样过程中的特征图裁剪crop的连接concatenation
  • 两个3*3卷积层
  • ReLU激活
    上述裁剪crop的存在,考虑到避免在每次卷积时边缘像素的损失。

1.3、最后一层

1*1卷积。为了64个特征值期望类别。整个网络中总共有23个卷积层。

2、Training训练

  • Caffe随机梯度下降法
  • UnPadded方式卷积,输出图像比输入图像少一个边界宽度。
  • 输入大图块代替大batch size。(最小化占用率、最大化GPU使用率)
  • high momentum (0.99) ?

2.1、损失函数

思想:逐像素进行,softmax激活函数结合交叉熵损失函数。

  • softmax function
    p k ( x ) = e x p ( a k ( x ) ) ∑ k ′ = 0 K e x p ( a k ′ ( x ) ) p_k(x) = \frac {exp(a_k(x))} {\sum_{k^{'}=0}^K exp(a_{k^{'}}(x)) } pk(x)=k=0Kexp(ak(x))exp(ak(x))
    其中, a k ( x ) a_k(x) ak(x)是像素位置x,k特征通道下的激活函数。K是类别数; p k ( x ) p_k(x) pk(x)是近似最大函数

  • cross entropy交叉熵
    交叉熵惩罚,每个位置的偏差 p l ( x ) p_{l}(x) pl(x):
    E = ∑ X ∈ Ω ω ( X ) l o g ( p l ( x ) ( X ) ) E=\sum_{X\in\Omega}\omega(X)log(_{p_{l}(x)}(X)) E=XΩω(X)log(pl(x)(X))
    其中, l : Ω → { 1 , . . . , K } l:{\Omega}→ \{1, . . . , K\} l:Ω{ 1,...,K} 是每个像素的真实标签; w : Ω → R w : Ω → R w:R 权重函数。

  • 权重函数
    分离边界通过形态学morphological处理计算。权重函数定义如下:
    ω ( X ) = ω c ( X ) + ω 0 ∗ e x p ( − ( d 1 ( X ) + d 2 ( X ) ) 2 2 σ 2 ) \omega(X) = \omega_{c}(X) + \omega_{0}*exp(-\frac{(d_1(X)+d_2(X))^2}{2\sigma^2}) ω(X)=ωc(X)+ω0exp(2σ2(d1(X)+d2(X))2)
    其中, w c : Ω → R w_c : Ω → R wc:R 类别频率权重; d 1 : Ω → R d_1 : Ω → R d1:R最近邻边界距离? d 2 : Ω → R d_2 : Ω → R d2:R次近邻边界距离?。初始状态 w 0 = 10 w_0 =10 w0=10 σ ≈ 5 \sigma \approx5 σ5像素

3、数据增强Data Augmentation

  • 在一个粗糙的3*3网格上,使用随机位移矢量生成平滑变形
  • 上述位移通过高斯分布(10像素标准差)进行采样
  • 每像素位移使用双三次插值算法计算
  • 在下采样过程的末端避免过拟合DropOut层,进一步执行隐式数据增强

猜你喜欢

转载自blog.csdn.net/duanyuwangyuyan/article/details/121831640