coursera deep learning course4 week3

  1. 定义
    这里写图片描述
    图像分类:对单一分类
    分类并定位:也只是对单一物体分类并加框
    目标检测:分类图片中的各种物体并分别加框

  2. objcet localization
    这里写图片描述
    若要检测三类目标,标签可设置为长度为8的向量,第一个Pc指示途中是否有图片(可以用逻辑回归);二到五分别为bx,by,bh,bw,分表代表物体的中心坐标,物体的高和宽(可以用MSE);最后三个指示是否为类别(可以用softmax)。视频说全用均方误差也能效果不错。

  3. sliding windows detection
    用不同大小的框遍历整个图片,缺点是计算量很大。

  4. FC层转为卷积层
    这里写图片描述

  5. 滑窗目标检测的卷积实现
    这里写图片描述
    最终每个深度都是一个滑窗的效果,缺点是bounding box的位置不是很准确。

  6. YOLO
    这里写图片描述
    将图片进行分格,并将物体中点作为物体在哪个格的标志。并且由于格子可以尽量小,因此可以将每个格子看作分类与定位。如图中所示标签为3x3x8,前面两个为格子数。这里讲的是简化版的,还有许多技巧能使效果更好。

  7. Intersection over union(IoU)
    这里写图片描述

  8. 非最大值抑制(non-max suppression)
    相邻的cell可能会预测到相同的物体,需要挑出最大概率的框并对其他超过一定阈值的框进行抑制,然后在剩下的框中继续操作,直到全部完成或者找到的框达到设置的boxes_threshold。

  9. Anchor box
    这里写图片描述
    对于重叠的目标,这些目标的中点有可能会落在同一个网格中,对于我们之前定义的输出:yi=[Pc bx by bh bw c1 c2 c3],只能得到一个目标的输出。

而Anchor box 则是预先定义多个不同形状的Anchor box,我们需要把预测目标对应地和各个Anchor box 关联起来,所以我们重新定义目标向量:
yi=[Pc bx by bh bw c1 c2 c3 Pc bx by bh bw c1 c2 c3⋯]
用这样的多目标向量分别对应不同的Anchor box,从而检测出多个重叠的目标。

  • 不使用Anchor box:训练图片中的每个对象,根据对象的中点,分配到对应的格子中。输出大小(例如8):n×n×8;
  • 使用Anchor box:训练图片的每个对象,根据对象的中点,分配到对应的格子中,同时还分配到一个和对象形状的IoU最高的Anchor box 中。输出大小(例如两个Anchor box):n×n×16。
    我不懂anchor box的指定大小是什么意思,是就指定几个规定形状的框还是最后可变的

特殊情况:

  • 如果我们使用了两个Anchor box,但是同一个格子中却有三个对象的情况,此时只能用一些额外的手段来处理;

  • 同一个格子中存在两个对象,但它们的Anchor box 形状相同,此时也需要引入一些专门处理该情况的手段。

但是以上的两种问题出现的可能性不会很大,对目标检测算法不会带来很大的影响。

Anchor box 的选择:

  • 一般人工指定Anchor box 的形状,选择5~10个以覆盖到多种不同的形状,可以涵盖我们想要检测的对象的形状;

  • 高级方法:K-means 算法:将不同对象形状进行聚类,用聚类后的结果来选择一组最具代表性的Anchor box,以此来代表我们想要检测对象的形状。

候选区域(region proposals)

R-CNN(Regions with convolutional networks),会在我们的图片中选出一些目标的候选区域,从而避免了传统滑动窗口在大量无对象区域的无用运算。

所以在使用了R-CNN后,我们不会再针对每个滑动窗口运算检测算法,而是只选择一些候选区域的窗口,在少数的窗口上运行卷积网络。

具体实现:运用图像分割算法,将图片分割成许多不同颜色的色块,然后在这些色块上放置窗口,将窗口中的内容输入网络,从而减小需要处理的窗口数量。
这里写图片描述

改进算法:

  1. R-CNN:给出候选区域,对每个候选区域进行分类识别,输出对象 标签 和 bounding box,从而在确实存在对象的区域得到更精确的边界框,但速度慢;

  2. Fast R-CNN:给出候选区域,使用滑动窗口的卷积实现去分类所有的候选区域,但得到候选区的聚类步骤仍然非常慢;

  3. Faster R-CNN:使用卷积网络给出候选区域。

猜你喜欢

转载自blog.csdn.net/yb564645735/article/details/78893128