1 图像处理分类

1.0 图像分类(classification)

计算机提取给定图像中物品的特征,输出物品的种类,如向计算机一张含有汽车的图片,计算机可判断出该图中的物品为汽车.
参见博客:(三)基于Tensorflow设计VGGNet网络训练CIFAR-10图像分类
在这里插入图片描述

图1.0 CIFAR图像分类

1.2 图像分类和定位(classification&localization)

在图像分类的基础上,识别图中的物品的位置,即标注出物品在图中的位置,单目标分类和定位.
在这里插入图片描述

图1.2 图像分类和定位

1.3 目标检测(object detection)

目标检测是在图像分类和定位的基础上,标注出图像中所有物品的分类,即多目标分类和定位.
在这里插入图片描述

图1.3 多目标分类和定位

1.4 语义分割(semantic segmentation)

图像中的"语义"指图像内容,分割是在像素级别上对图像进行分类和定位,识别出图像中的不同物品,分割出不同物品,同种物品标注为一类.
在这里插入图片描述

图1.4 语义分割

1.5 实例分割(instance segmentation)

在语义分割的基础上,对同类的物品进行二次处理,将同种物品分割为独立的对象.
在这里插入图片描述

图1.5 实例分割

2 图像目标检测方法

2.1 时间简史

在这里插入图片描述

图2.1 图像检测发展时间轴

2.2 方法概述

2.2.1 传统方法

如图2.1所示,传统图像目标检测,利用不同的尺寸,不同比例的滑动窗口穷举所有可能的图像目标,代表算法有VJ(Viola-Jones)检测算法,HOG(Histogram of Gradient)算法,DPM(Deformable Parts Model).
在这里插入图片描述

图2.2 滑动窗口

2.2.2 深度学习:目标推荐(Object Proposal)

目标推荐方法,在图像上搜索潜在目标,将该目标作为输入进行处理.其中,推荐方法分为四类,如下展示,其中,经典算法有R-CNN,SPPNet,Fast-RCNN, Faster-RCNN, Feature Pyramid Networks(FPN).

第一类
将图片全部打散,再聚合,聚合方法有三种,即依据定义的距离进行聚合;随机初始化种子点,然后分割,多次循环,定义特征进行排序,完成聚合;利用现有方法快速分割,利用边缘信息进行聚合.

图2.3 先破后立

第二类
通过分割,计算生成大量窗口,并对窗口进行打分,过滤低分窗口,其中Bing方法利用训练简单的分类其通过类似滑动窗口的方式过滤候选框,快速识别;EdgeBoxes方法通过计算窗口内边缘个数打分,排序,获取目标.

图2.4 窗口打分机制

第三类
基于卷积神经网络(CNN)提取图像特征,对候选框进行打分,获取目标标识.

图2.5 CNN系列

第四类
采用基线模型,利用Uniform,Gaussian, Sliding windowshe Superpixels作为基线.

2.2.3 深度学习:一体化卷积网络

该方法将输入的图像作为一个整体,不将图片进行"打碎",区别于Object Proposal,通过对图片进行划分栅格,在栅格中检测物体,计算物体坐标和置信度,预测物体分类,经典算法有YOLO, SSD, Retian-Net.
在这里插入图片描述

图2.6 栅格预测

3 总结

(1) 图像语义分割是对不同物品的分割,如图1.4所示,即对物品分类,同类物品标为一类.
(2) 图像实例分割,是对图像中的各个物品进行标注,如图1.5所示,同种物品会被分割,即分割图像中所有物品.
(3) 图像目标检测传统方法有:VJ,HOG, DPM;深度学习方法有两个分支,目标推荐和图像一体化.
(4) 图像目标检测方法归纳,表3.1.

序号	分类	方法
1	传统	VJ, HOG, DPM
2	深度学习:图像推荐	Overfeat, R-CNN, SPPNet, Fast-RCNN, Faster-RCNN, Feature Pyramid Networks
3	深度学习:图像一体	YOLO, SSD, Retina-Net

[参考文献]
[1]https://www.jianshu.com/p/710799b985ef
[2]https://blog.csdn.net/qq_39295044/article/details/79796663
[3]https://blog.csdn.net/sinat_35496345/article/details/79609529
[4]https://blog.csdn.net/qq_38906523/article/details/79971817

图像目标检测概要(一)