以DeepLabv3+架构为基础做图像分割(包含v1, v2, v3介绍)

其他 2019-04-22 18:14:20 阅读次数: 0

DeepLab图像分割算分的发展过程

v1:

贡献: 首次把空洞卷积(dilated convolution) 引入图形分割领域

基本内容:

基于VGG16
将最后两个池化层改为卷积层(控制分辨率不要太小)
去掉全连接层(保留最后一个用于softmax分类)
后三个卷积改为空洞卷积(保证感受野与去掉池化层前接近)
对结果上采样后用CRF细化分割效果

空洞卷积(Dilated Convolution)

在这里插入图片描述
作用:

扩大感受野(pooling也可以增加感受野, 但缺点是空间分辨率也降低了)
捕获多尺度上下文信息(通过调节dilation rate)

v2

贡献: 引入带空洞卷积的空间金字塔池化(ASPP)

基本内容:

基础网络由VGG16 --> ResNet
多尺度空洞卷积并行, 获得更好的分割效果(feature map尺寸不变)
采用多项式lr衰减
与v1一样, 对结果上采样后用CRF细化分割效果

v3

贡献: 优化ASPP

基本内容:

提出了获取多尺度信息的并行与串行结构
ASPP中应用了BN层
考虑了dilation rate 的意义, 重新设置了rate 不能过大(rate过大, filter中有效权重减少, 更难捕获远距离信息)
ASPP中加入全局平均池化, 获取全局尺度信息
去掉了CRF后处理

v3+

贡献: 引入编码–解码结构
基本内容:

v3作为编码部分, 添加了一个解码部分
尝试了用Xception作为基础网络(ResNet仍然使用)

基本架构

tf.estimator API定义网络
数据读取(将MRI图像制作成TFRecord)
得到prdict classes(如果是预测过程, 直接输出结果)
设置loss计算方式
设置learning rate和优化方式(如果是验证过程, 跳过此步骤)
计算accuracy和mean_iou
写入日志信息到Tensorboard, 可视化训练过程, 如accuracy, loss, learning_rate等的变化过程
开始训练

遇到的问题

制作并读取TFRecord: 源码是从TFRecord中读取按jpg格式读取image, MRI数据集为png格式, 修改源码使deeplab读取tfrecord并按png格式解析image.
后来发现没有做map, label范围不对. 尝试在TFRecord解析出png后把数据转成ndarray进行 map, 发现这样效率特别低, 放弃.
重新制作TFRecord, 在制作TFRecord之前, 先做好map
数据不平衡, 需要ixi调整权重(batch/整体, class0的权重)
修改loss, 加入mean_iou(不包括背景)做优化
learning_rate的初值及衰减方式
源码是每个epoch做一次验证, 我们数据集很大, 这样不合适, 调整为每1/4个epoch做一次验证
数据类型错误, label从tfrecord读出来是uint8格式, 范围是0~255, 然后做padding的过程中有个-255, 再转换成float然后+255的操作, 导致数据出错
经过几天训练, 发现模型有些欠拟合, 因为不同区域间的分界线分割效果不是很好, 所以停止训练, 修改模型. 1. 只对input做224*224的随机裁剪, 不进行rescale和flip等操作 2. 减小 weight_decay, 即减小正则化项的权重. 3. 用卷积核找到label中不同class的边界, 增大边界像素的分类权重, 使得网络着重分类边界的学习
等等…

训练过程

在这里插入图片描述

实验结果

在这里插入图片描述

未来打算

6.1 修改网络结构:

尝试范围空间卷积
ASPP全局平均池化如果是要传递全局尺度信息, 直接传原feature map会不会又更好的效果
解码部分尝试U-Net结构, 结合不同分辨率下提取到的信息进行分割

6.2 用集成学习提高模型效果(模型融合)

同轴位下, 相同模型不同参数做平均
同轴位下, 不同模型之间做集成
三个轴位, 各自训练模型, 然后集成

6.3 尝试用手工标注数据对网络进行微调

猜你喜欢

转载自blog.csdn.net/weixin_42561002/article/details/89398966

以DeepLabv3+架构为基础做图像分割(包含v1, v2, v3介绍)

Procedure V2介绍

华为服务器_RH2288H V3介绍

Deeplab V1 和 V2讲解 | DeepLabv3+：语义分割领域的新高峰

YOLO v1,v2,v3

yolo v1 v2 v3

DeepLab v1、v2、v3

mobilenet v1\v2\v3

Inception v1 v2 v3

Yolo算法v1-v3介绍

Iception v1-v3介绍

图像分割之 deeplab v1,v2,v3,v3+系列解读

deeplab v1 & v2 & v3 & v3+

DeepLab系列（v1,v2,v3,v3+）总结

Googlenet v1、v2、v3、v4区别

Inception v1 —v2 —v3 —v4

极简解释inception V1 V2 V3 V4

GoogLeNet 之 Inception v1 v2 v3 v4

IGMPv1,v2,v3总结

MobileNetV1、V2、V3总结

YOLO v2算法详解+YOLO9000介绍

深度学习图像分类（四）： GoogLeNet（V1,V2,V3,V4）

SNMP v1，v2，v3 的比较

Inception结构和Inception V1, V2, V3学习

Android 签名机制 v1、v2、v3

YOLO V1、V2、V3算法精要解说

YOLO V1,V2,V3总结

如何更优雅管理API接口版本（v1/v2/v3…）

场景文本识别—Mask TextSpotter v1 & v2 & v3

IOU、YOLO v1、v2、v3学习总结

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)