【论文阅读】Assessment of Breast Cancer Histology using Densely Connected Convolutional Networks

写在前面：

这篇文章在BACH2018竞赛中，任务一：5/51名（Test=0.83，冠军0.86），任务二：11/13名（Test=0.41，冠军0.69）。

Assessment of Breast Cancer Histology using Densely Connected Convolutional Networks

一、预训练

作者采用两种预训练。

第一种：ImageNet，网上现成的模型参数，不再赘述。

第二种：使用Camelyon16&17的数据进行预训练。

以132um/pixel的精度，裁剪157*157的patch，normal与tumor各10w张左右用于训练，验证使用normal的3w和tumor的2w张。

Xavier初始化，以学习率0.001开始，每20epoch下降一半，训练90epoch。

二、任务一

四分类任务。数据集为0.42um/pixel，2048*1536. 10倍下采样为205*154

作者将官网的训练集采用80：20的比例划分为训练集和验证集。

数据增强：1、病例图像无向性，增加旋转处理；2、随机尺度变换[0.5,2.0]；3、随机移位（空白区域采用临近填充）；4、采用数据集的均值方差进行归一化

网络：DenNet-161，训练无dropout，无权重衰减。为防止过拟合，先在fc层以0.001学习率训练25 epoches，再以0.0002在整个网络训练250 epoches。

batch_size=32. 每个epoch采用随机shuffle图片顺序。

三、任务二

WSI全图四类分割。官网数据30张WSI中仅10张有标注。0.467um/pixel。

4.5倍下采样后取330um*330um（157*157）

在patch的层面上去除背景。

共24406 patches（normal：13280，benign：903，situ：354，invasive：9869），数据严重不均衡

数据扩充与上一任务类似，区别是移位时以真实图像填充而非临近复制。并增加了色彩增强。

剩下20张请专业人士标注了16张，重点为了选用其中的benign和situ的数据。扩充后，变为

（normal：25230，benign：1723，situ：1759，invasive：12794）

网络：DenseNet-161

以0.005学习率训练fc层6 epoches，以0.001训练全网络60 epoches，再以0.0005训练40 epoches。

由于数据不均衡，给loss增加了权重 log（N/N_c）.相当于数据越少权重越大。

最终结果为144倍下采样的结果，增加中值滤波和膨胀操作来扩大少量数据获得较大较完整的预测区域。

四、结果

作者认为，两个任务里采用camelyon预训练都不如ImageNet预训练……

作者的结果都是在训练集交叉验证的结果，只是作者选择参赛模型的参考数据，并不是比赛结果。

任务一：

任务二：

个人小结：

1、作者的任务一排名靠前，接近最好的结果，略有参考价值。作者认为DenseNet-161效果较好。

2、作者采用下采样训练是一种思路。以往的经验认为图像越清晰效果越好，不知道作者的方法采用裁剪投票是否会更好。有待权衡。

3、作者用那么大篇幅介绍了camelyon的预训练，然后……有用？？？姑且算是帮忙踩坑吧。私以为数据差异还是很大的，而且那个是二分类，任务越具体泛化性相对会越差。或者可能是因为作者在camelyon取得样本太少了不便于训练。。

4、使用了专家增加标注，真的是下了血本啊。不过收效甚微啊，任务二排名着实有点低。。。

5、loss的权重不同于最常规的反比权重，增加了对数缓和了比例关系，或许可以考虑使用。

6、私以为任务二的膨胀等操作会大幅度放大噪声，可能是任务二结果较低的原因之一。