1 图像处理分类
1.0 图像分类(classification)
计算机提取给定图像中物品的特征,输出物品的种类,如向计算机一张含有汽车的图片,计算机可判断出该图中的物品为汽车.
参见博客:(三)基于Tensorflow设计VGGNet网络训练CIFAR-10图像分类
1.2 图像分类和定位(classification&localization)
在图像分类的基础上,识别图中的物品的位置,即标注出物品在图中的位置,单目标分类和定位.
1.3 目标检测(object detection)
目标检测是在图像分类和定位的基础上,标注出图像中所有物品的分类,即多目标分类和定位.
1.4 语义分割(semantic segmentation)
图像中的"语义"指图像内容,分割是在像素级别上对图像进行分类和定位,识别出图像中的不同物品,分割出不同物品,同种物品标注为一类.
1.5 实例分割(instance segmentation)
在语义分割的基础上,对同类的物品进行二次处理,将同种物品分割为独立的对象.
2 图像目标检测方法
2.1 时间简史
2.2 方法概述
2.2.1 传统方法
如图2.1所示,传统图像目标检测,利用不同的尺寸,不同比例的滑动窗口穷举所有可能的图像目标,代表算法有VJ(Viola-Jones)检测算法,HOG(Histogram of Gradient)算法,DPM(Deformable Parts Model).
2.2.2 深度学习:目标推荐(Object Proposal)
目标推荐方法,在图像上搜索潜在目标,将该目标作为输入进行处理.其中,推荐方法分为四类,如下展示,其中,经典算法有R-CNN,SPPNet,Fast-RCNN, Faster-RCNN, Feature Pyramid Networks(FPN).
- 第一类
将图片全部打散,再聚合,聚合方法有三种,即依据定义的距离进行聚合;随机初始化种子点,然后分割,多次循环,定义特征进行排序,完成聚合;利用现有方法快速分割,利用边缘信息进行聚合.
- 第二类
通过分割,计算生成大量窗口,并对窗口进行打分,过滤低分窗口,其中Bing方法利用训练简单的分类其通过类似滑动窗口的方式过滤候选框,快速识别;EdgeBoxes方法通过计算窗口内边缘个数打分,排序,获取目标.
- 第三类
基于卷积神经网络(CNN)提取图像特征,对候选框进行打分,获取目标标识.
- 第四类
采用基线模型,利用Uniform,Gaussian, Sliding windowshe Superpixels作为基线.
2.2.3 深度学习:一体化卷积网络
该方法将输入的图像作为一个整体,不将图片进行"打碎",区别于Object Proposal,通过对图片进行划分栅格,在栅格中检测物体,计算物体坐标和置信度,预测物体分类,经典算法有YOLO, SSD, Retian-Net.
3 总结
(1) 图像语义分割是对不同物品的分割,如图1.4所示,即对物品分类,同类物品标为一类.
(2) 图像实例分割,是对图像中的各个物品进行标注,如图1.5所示,同种物品会被分割,即分割图像中所有物品.
(3) 图像目标检测传统方法有:VJ,HOG, DPM;深度学习方法有两个分支,目标推荐和图像一体化.
(4) 图像目标检测方法归纳,表3.1.
序号 | 分类 | 方法 |
---|---|---|
1 | 传统 | VJ, HOG, DPM |
2 | 深度学习:图像推荐 | Overfeat, R-CNN, SPPNet, Fast-RCNN, Faster-RCNN, Feature Pyramid Networks |
3 | 深度学习:图像一体 | YOLO, SSD, Retina-Net |
[参考文献]
[1]https://www.jianshu.com/p/710799b985ef
[2]https://blog.csdn.net/qq_39295044/article/details/79796663
[3]https://blog.csdn.net/sinat_35496345/article/details/79609529
[4]https://blog.csdn.net/qq_38906523/article/details/79971817