目标检测（Object detection）

一、目标定位（Object Localization）

图像识别的三个层次：

目标定位：
需要修改输出层的结构，和数据集的标签。输出层不仅要输出各类别的概率，还要输出目标的位置坐标。
这里写图片描述
损失函数和标签：

Pc：表示是否包含要检测目标。如果不包含为0，其它的输出没有意义。
根据情况，可以对不同的输出元素使用不同的损失函数，如：对多类别概率使用交叉熵损失函数；对边界框值使用平方误差；对Pc使用 logistic regression 损失函数。

在训练标签中添加特征点，并修改模型的输出层使其输出特征点坐标值，从而实现特征点检测。

两个例子：

训练了一个分类模型。

滑动窗口检测：

设置一系列尺寸不同的方框，每一种方框都从左向右、从上往下有规律的遍历图像，把每一个方框包含的图片区域输入不同的分类器，进行分类判别。即可实现目标检测。

缺点是计算成本太大，方框尺寸的细分程度对定位的精度（粗粒度）影响很大。
这里写图片描述
卷积层替代全连接层：

利用1×1的卷积替代全连接层。
这里写图片描述
卷积实现滑动窗口：

不用把图片进行分割后输入模型，而是把这张图片输入到卷积神经网络中进行计算，因为各子图重叠部分可以共享大量的计算。只需一次前向传播，就可以同时得到所有子图的预测值。
输出层尺寸为：横向子图数 x 纵向子图数 x 类别数
这里写图片描述

受边界框尺寸的细分程度的影响，预测结果和实际目标边框可能会有偏离。
这里写图片描述
YOLO 算法很好的解决边界框不准确的问题，下面会讲。

边界框值的意义：

两个边框：实际边框和预测边框。
IoU = 边框交集 / 边框并集
这里写图片描述

一个目标可能检测出多个边界框，用非极大值抑制解决。
这里写图片描述
以某一个分类类别为例：

解决一个格子只能预测一个目标的不足。

训练：

划分网格：将图片分割成n×n个小的图片。
根据目标的中心点，为每个目标分配一个grid cell ：中点在哪个grid cell ，就将该对象分配这个格子中，每个目标只分配给一个格子。
数据标签：对于每个 grid cell 都有一个包含分类和位置的标签yi=[Pc bx by bh bw c1 c2 c3]，因为标签的位置值的大小可以是任意值，相比于滑动窗口宽高比不再固定，因此能得到更精确的边框。

node: 这里的yi标签是没有Anchor Boxes的，如果有Anchor Boxes应相应增加值。
将 n×n 个格子的标签合并起来，得到 n×n×8 的矩阵标签。
训练模型。

没有Anchor Boxes：

有Anchor Boxes：