【斯坦福CS231n《深度视觉识别》课程(2017)】lecture11_Detection and Segmentation

视频链接:https://www.bilibili.com/video/BV1Dx411n7UE?p=11

收获

本节讲了语义分割,分类 + 定位,目标检测,实例分割。

  • 语义分割:每个像素点都要有分类。

    1. 每个像素点做一个滑动窗口?(计算昂贵)
    2. 全卷积,共享卷积计算
    3. 下采样 + 上采样(进一步优化)
  • 分类 + 定位(一个对象)

    1. 在分类的基础上多加一个 分支做回归任务
  • 目标检测(多个对象)

    1. 不知道对象有多少个,所以不能用上面的方法。
    2. R-CNN(Region Proposals给出候选框),Fast R-CNN(Region Proposals在特征层上做),Faster R-CNN (RPN网络代替Region Proposals)
    3. YOLO / SSD(直接一次输出所需要的目标(位置,分类))
  • 实例分割(对象 像素点分类)

    1. Mask R-CNN(上面分支做目标检测,下面分支做语义分割,Mask R-CNN统一这些框架,还可以加多一个分支(固定数量的预测) 做姿态估计)

Mask R-CNN给我最大的启示:

  • 你可以将多个想法结合在一起,用其它问题学到的组件组合在一起,共同构造一个端到端的网络。例如提到的Dense Captioning 和 Mask R-CNN does pose(Mask R-CNN做姿态估计(目标检测 + 实例分割 + 定位))

1. 总览

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. Semantic Segmentation(产生输入图像每个像素的类别标签)

在这里插入图片描述
不区分实例,可能重复在一起,如右下,
在这里插入图片描述

Semantic Segmentation Idea:Sliding Window(第一个浅显的想法,计算昂贵)

在这里插入图片描述

Semantic Segmentation Idea:Fully Convolutional(共享卷积计算,缺点:计算昂贵,占用大量内存)

在这里插入图片描述
Q1:训练数据哪里来?
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Q2:损失函数是什么?
每个像素的交叉熵损失
Q3:一开始就知道训练的类别?
是的,固定标签

Semantic Segmentation Idea:Fully Convolutional(改进版:下采样)

在这里插入图片描述

Q4:如何进行上采样?

在这里插入图片描述

下采样和上采样是结构对称的,哪个元素也是对应的

在这里插入图片描述
Q5:为什么这样做是个好主意?(指上下采样元素对应)
最大池化会丢掉一些空间信息,需要从这个元素还原回来处理细节
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Learnable Upsampling:Transpose Convolution(可学习的上采样,转置卷积)

卷积
在这里插入图片描述
跨步卷积(指stride = 2)在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
转置卷积(重叠的部分 求和,这样边界就凸显了?)
在这里插入图片描述
转置卷积,1D展示
在这里插入图片描述
语义分割总结,模型概览
在这里插入图片描述

3. Classfication + Localization

在这里插入图片描述
加多一组,把Localization当作是回归问题
在这里插入图片描述
Aside:Human Pose Estimation
在这里插入图片描述
在这里插入图片描述
分类 + 定位总结:固定数量的回归输出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. Object Detection

在这里插入图片描述
目标检测难点:不知道多少个对象
在这里插入图片描述
在这里插入图片描述

Object Detection as Classification:Sliding Window(不可行,不知道框的位置,大小,长宽比)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Region Proposals(固定算法,作用:给出候选框)

在这里插入图片描述

R-CNN(利用Region Proposals给定的候选框)

运行大约每张图2000框候选框,慢
在这里插入图片描述

Fast R-CNN(在特征图上做Region Proposals,最后一层直接做分类 + 预测,瓶颈在Region Proposals)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Faster R-CNN(利用一个RPN网络代替Region Proposals算法)

在这里插入图片描述
在这里插入图片描述

Detection without Proposals:YOLO / SSD

在这里插入图片描述在这里插入图片描述

Aside:Object Detection + Captioning = Dense Captioning(目标检测 + RNN)

在这里插入图片描述
在这里插入图片描述

介绍上面那个目的:你可以将很多想法 组合在一起(good idea)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5. Instance Segmentation

在这里插入图片描述

Mask R-CNN

在这里插入图片描述
多分支
上面的分支是目标检测
下面的分支是语义分割
就这样组合起来训练一个端到端的网络,cool!
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
再加多一个分支:预测关节这些坐标(做 姿态估计)
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43154149/article/details/123248845
今日推荐