【论文阅读】Detecting Cancer Metastases on Gigapixel Pathology Images

写在前面:

Google关于camelyon 16的文章,很遗憾现在才看到。这应该是目前为止任务二上的最高结果了。

Detecting Cancer Metastases on Gigapixel Pathology Images

 一、概述

1、作者表示此方法能从10w*10w分辨率的图像中分辨出100*100的小区域

2、camelyon16 数据集 任务一:AUC=97% 任务二:92.4%(人类医生标注准确率73.2%)

3、作者认为无用的举措:

  (1)多尺度只会让结果更加平滑,对于准确率没有过大影响

  (2)预训练影响不大,毕竟数据足够多

  (3)色彩归一化也没有很大影响

4、舍弃随机森林,只使用slide中最大值作为概率,节省时间开销且准确率没有很大差别

二、细节

1、网络:Inception V3,输入299*299用于预测中心区域128*128的类别。中心区域含有肿瘤标记则标记为tumor

2、旋转4个90度,镜像操作后也旋转,会获得八个方向的数据(都用于训练)数据量真是令人害怕……

3、为避免偏向能够裁剪较多patch的slide,作者认为应该先随机选择slide再从中取样。(具体咋做的我也不知道,究竟效果如何,是否真的好于全体取样,作者并未用实验说明)

4、使用TensorFlow预处理图形,增加一些随机信息:亮度64/255 饱和度0.25 色调 0.04 对比度0.75。同时,裁剪的时候增加随机抖动,最多8像素的位移偏差。数值先放缩到[0,1],再归一化到[-1,1]

5、滑窗步长128(对应中心区域尺寸),八个方向都预测,取平均值作为最终结果

6、网络设置:RMSProp 学习率初始0.05,每两百万个样本减半。使用ImageNet预训练则用0.002作为初始学习率。

三、实验

 

作者在附录中说了一句:经过专家鉴定,数据集的训练集中存在非穷举标注,也就是说存在某张tumor slide有多处肿瘤却只标注了一处。。。

换句话说,裁剪patch的时候,normal训练集中存在大量噪声。。。不说了,蹲墙角哭去了……

猜你喜欢

转载自www.cnblogs.com/xiangfeidemengzhu/p/9115607.html