coursera deep learning course4 week3

定义

图像分类：对单一分类
分类并定位：也只是对单一物体分类并加框
目标检测：分类图片中的各种物体并分别加框
objcet localization

若要检测三类目标，标签可设置为长度为8的向量，第一个Pc指示途中是否有图片（可以用逻辑回归）；二到五分别为bx,by,bh,bw,分表代表物体的中心坐标，物体的高和宽（可以用MSE）；最后三个指示是否为类别（可以用softmax）。视频说全用均方误差也能效果不错。
sliding windows detection
用不同大小的框遍历整个图片，缺点是计算量很大。
FC层转为卷积层
滑窗目标检测的卷积实现

最终每个深度都是一个滑窗的效果，缺点是bounding box的位置不是很准确。
YOLO

将图片进行分格，并将物体中点作为物体在哪个格的标志。并且由于格子可以尽量小，因此可以将每个格子看作分类与定位。如图中所示标签为3x3x8，前面两个为格子数。这里讲的是简化版的，还有许多技巧能使效果更好。
Intersection over union(IoU)
非最大值抑制(non-max suppression)
相邻的cell可能会预测到相同的物体，需要挑出最大概率的框并对其他超过一定阈值的框进行抑制，然后在剩下的框中继续操作，直到全部完成或者找到的框达到设置的boxes_threshold。
Anchor box

对于重叠的目标，这些目标的中点有可能会落在同一个网格中，对于我们之前定义的输出：yi=[Pc bx by bh bw c1 c2 c3]，只能得到一个目标的输出。

而Anchor box 则是预先定义多个不同形状的Anchor box，我们需要把预测目标对应地和各个Anchor box 关联起来，所以我们重新定义目标向量：
yi=[Pc bx by bh bw c1 c2 c3 Pc bx by bh bw c1 c2 c3⋯]
用这样的多目标向量分别对应不同的Anchor box，从而检测出多个重叠的目标。

不使用Anchor box：训练图片中的每个对象，根据对象的中点，分配到对应的格子中。输出大小（例如8）：n×n×8；
使用Anchor box：训练图片的每个对象，根据对象的中点，分配到对应的格子中，同时还分配到一个和对象形状的IoU最高的Anchor box 中。输出大小（例如两个Anchor box）：n×n×16。
我不懂anchor box的指定大小是什么意思，是就指定几个规定形状的框还是最后可变的

特殊情况：

如果我们使用了两个Anchor box，但是同一个格子中却有三个对象的情况，此时只能用一些额外的手段来处理；
同一个格子中存在两个对象，但它们的Anchor box 形状相同，此时也需要引入一些专门处理该情况的手段。

但是以上的两种问题出现的可能性不会很大，对目标检测算法不会带来很大的影响。

Anchor box 的选择：

一般人工指定Anchor box 的形状，选择5~10个以覆盖到多种不同的形状，可以涵盖我们想要检测的对象的形状；
高级方法：K-means 算法：将不同对象形状进行聚类，用聚类后的结果来选择一组最具代表性的Anchor box，以此来代表我们想要检测对象的形状。

候选区域(region proposals)

R-CNN（Regions with convolutional networks），会在我们的图片中选出一些目标的候选区域，从而避免了传统滑动窗口在大量无对象区域的无用运算。

所以在使用了R-CNN后，我们不会再针对每个滑动窗口运算检测算法，而是只选择一些候选区域的窗口，在少数的窗口上运行卷积网络。

具体实现：运用图像分割算法，将图片分割成许多不同颜色的色块，然后在这些色块上放置窗口，将窗口中的内容输入网络，从而减小需要处理的窗口数量。
这里写图片描述

改进算法：

R-CNN：给出候选区域，对每个候选区域进行分类识别，输出对象标签和 bounding box，从而在确实存在对象的区域得到更精确的边界框，但速度慢；
Fast R-CNN：给出候选区域，使用滑动窗口的卷积实现去分类所有的候选区域，但得到候选区的聚类步骤仍然非常慢；
Faster R-CNN：使用卷积网络给出候选区域。

coursera deep learning course4 week3

候选区域(region proposals)

猜你喜欢