Convolutional Neural Networks(week 3)---Object detection

Detection algorithms

一、Object Localization

假设目前的图片中只有一个对象,即最多有一个对象出现在图片中

二、Landmark Detection

给脸的五官进行定位,即确定脸部重要的位置或重要的地标在哪

该人脸部分的关键点有64个,如眼睛、嘴巴、下颚线等,所以总共的输出参数有129个

1个参数判断是否是脸,剩下表示关键特征是否在脸上。

地标的身份 在不同的图像中要保持一致,如地标一表示左眼左侧,地标二表示左眼右侧

三、Object Detection

用ConvNet和Sliding windows检测算法进行目标检测

目标检测的总体步骤就是:通过将剪切好的汽车图片打好标签进行训练,训练好卷积神经网络,然后用移动窗口一次使用逐渐变大的窗口对图片进行遍历

这样可能存在的一个问题就是,计算代价过大,无法精确地聚焦该图片在剪切好图片的中心

五、Convolutional Implementation of Sliding Windows

用卷积的形式实现滑动窗口算法

将全连接层转化为卷积层来实现

六、Bounding Box Predictions

解决上述无法精确输出边界框的问题,如没有一个边框与车的位置正好吻合,且可能吻合的边框不是正好为正方形,也可能为较宽的长方形

Yolo--you only look once

检测到的物品属于其中心点所在的格子中

七、Intersection over union

如何判断目标检测算法是否有效?

IOU计算两个边框的交集除以并集的比率,0.5是算法优劣的临界值,以评估判断预测的边界框是否准确

IOU越高,定位越准确

八、Non-max Suppression

九、Anchor Boxes

用一个格子侦测多个物件

十、YOLO Algorithm

十一、(Optional) Region Proposals

计算机视觉中候选区域的思想

R-CNN(R-region)伴随着候选区域的CNN,即通过色块选择整个色块的区域,然后根据区域来判断是否 有一个物体

找大约2000个色块,但R-CNN也是比较缓慢的,大部分应用中比YOLO慢一些

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/86936442