图像分类与检测概述

图像分类与检测是现今计算机视觉处理中最为常见的两项任务,本文尽量综述一下传统的图像分类与检测与现今的图像分类与检测技术。以下是要讲的几个方面:

图像分类与检测概述
传统的图像分类与检测方法
现今的图像分类与检测方法

1 图像分类与检测概述

当我们面对一张图片的时候,最基础的任务就是这张图片是什么,是风景图还是人物图、是描写建筑物的还是关于食物的,这就是分类。分类作为一个较为笼统的目标,还是较为好达成的。当知道了图像的类别的时候,进一步的就是检测了,例如我知道这个图像是关于人脸的,那么这个人脸在哪里,能不能把它框出来。检测作为一个较为精细的目标,达成的难度可以说是远大于分类的。

1.1 图像分类与检测的难点

不只是图像分类与检测,几乎所有的关于机器学习的难点,都是特征提取这一步,一旦找到好的特征,分类与检测就变的很容易了。所谓的特征提取就是指构建一种提取算法,提取出图像里目标对象的特征,例如人脸的边缘特征、皮肤的颜色特征等,这个特征需要尽可能的将目标物体与其他物体区分开来,例如需要区分的物体是黑猫和白猫,那么毫无疑问颜色特征是一个很好的特征。但是,生活中遇到的难题往往都是很难去提取特征的,例如在嘈杂的街道上检测行人与车辆,这种任务对于检测算法的正确率要求很高,因为一不小心漏检或错检一个人可能就会带来一场车祸。

1.2 图像分类与检测的评价指标

图像分类的指标比较常见,就是分类的正确率,例如猫狗分类,100张中99张分类正确,那么正确率就是99%的正确率。对于目标检测来说,评价指标就多了一些,主要是检错率、漏检率以及检测meaniou,检错率是指一张图片上有两只猫一只狗,而你的模型检测出了三只猫,那么那第三只猫就是检错的,检错率就是33%;漏检的意思是如果你将上面的图片只检测出一只猫和一只狗的话,那就是漏检了一只猫,漏检率33%;mean_iou指的是你检测出来的目标物体的框和真实的框之间的交并比,如下图:
2 传统的图像分类与检测方法

传统的图像分类与检测的步骤大致是两步:特征提取-》训练分类器

在特征提取阶段,设计者会尝试各种通用特征或者自己设计的特征对图像进行特征提取,我们以人脸检测为例,通用的特征就是HOG、SURF、LBP等特征,而对于人脸效果比较好的特征有鼎鼎大名的haar特征。在选定了这些备用特征之后,设计者会进行尝试特征与权衡利弊,因为对于计算机来说,特征的唯一性、通用性越好,所意味的计算量就越大,设计者必须在保证速度的情况下选择尽量好的特征。

当选择了计算量适中同时能达到要求的准确率的特征例如LBP和haar特征之后,使用传统的机器学习方法例如朴素贝叶斯、adaboost、随机森林等建模方法,训练出一个分类模型,使用这个分类模型来进行图像分类或检测。模型的选择通常要比特征选择简单的多,只需要把备选的模型都试一遍,挑效果最好的模型进行调参,调到极致之后,一个人脸检测模型就做出来的。

走这么一套传统图像检测方法的流程,需要很长的时间,并且每一步都需要做好,最终的模型才会有较好的效果,一旦中间的一步出现错误就会牵一发而动全身。所以使用传统方法做图像处理是需要很大代价的。
3 现今的图像分类和检测方法

自从2015年深度学习占领各大图像处理比赛榜首之后,现在的图像处理大部分使用的方法都是深度学习,也就是神经网络。神经网络通过很多的神经元构建成一层一层的网络,通过激活层来使得模型有很强的非线性拟合的能力。设计者只需要将图像输入,然后告诉模型需要的结果是什么,模型便会自动的学习特征提取与结果映射。

通过深度学习,剩下设计者在传统图像处理时最为费时费力的特征提取的那一部分。设计者只需要设计网络结果,使得网络自动提取的特征越好,效果就会也好,正确率越高。

神经网络本质上是矩阵相乘与非线性的组合,通过很多很多的滤波核,来过滤对结果最为有用的特征而抑制对结果没有用的特征,来进行学习与分类。

现在在工程中最为常用的还是vgg、resnet、inception这几种结构,设计者通常会先直接套用原版的模型对数据进行训练一次,然后选择效果较为好的模型进行微调与模型缩减。因为工程上使用的模型必须在精度高的同时速度要快。常用的模型缩减的方法是减少卷积和个数与减少resnet的模块数。

现在常用的检测模型,还是FRCNN、Mask-RCNN、YOLO、SSD等网络模型,一方面精度确实是高,另一方面速度现在进过优化也可以做到实时了。像上面的人脸检测的功能,只需要准备好人脸图片及对应的框标注文件,便可直接跑模型,得到一个还不错的检测模型。
4 总结

深度学习对于图像处理非常有用,但同时也有一些弊端,例如需要大量数据、调参很依靠经验,需要的计算能力很高等,适合处理很复杂的现实生活场景。传统的图像处理对于特定场景下简单的任务例如文本文档的检测、矫正等,还是非常有用且高效的。

第一次写文章,这是从工程角度写的综述,不足之处恳请批评指正。以后会不定期写写图像处理的一些小项目,欢迎交流。

猜你喜欢

转载自blog.csdn.net/mengjiexu_cn/article/details/83011670