第二十二周学习笔记

阅读《计算机视觉——算法与应用》

第十四章识别

在所有计算机视觉任务中，识别是最具有挑战性的任务，即便计算机擅长从多个视角拍摄的图像中精确地重建出场景的3D形状，但是它们仍然无法叫出现在图像中的物体和动物的名称。
因为现实世界是由混杂的物体组成的，所有物体会遮挡其他物体，还经常呈现出不同的姿态。另外，由于复杂的非刚性关节连接关系以及形状和表现的极端变化，一类物体内固有的变化使得我们不可能简单地用样例数据进行彻底的匹配。

14.1 物体检测

给定图像让我们分析，我们可以在这个图像中对每个可能的子窗口应用某个识别算法。这类算法可能既慢又容易出错。相反，构建特殊目的的检测器（detector）是更有效的方法，它们的任务是快速找到可能出现物体的区域。

14.1.1 人脸检测

基于特征的方法，尝试寻找有区分性的图像特征的位置，比如眼睛、鼻子和嘴，然后在几何布局上验证这些特征是否存在
基于模板的方法，能处理姿态和表情较大范围的变化
基于表观的方法，扫描图像的小的有重叠的矩形区域寻找似人脸的候选区域，然后用一组更昂贵但具选择性的检测算法的层叠求精

14.1.2 行人检测

14.2 人脸识别

14.2.1特征脸

任意人脸图像都可以通过一个平均图像开始并加上少数有定比带符号的图像 $u_i$ 来压缩和重建，通过主成分分析得到特征脸展开的系数可以构建一个快速匹配算法。

14.2.2 活动表现与3D形状模型

人脸表现和可识别性不仅依赖于颜色和纹理（这是特征脸所刻画的），同样依赖于形状。进一步，当处理3D头部旋转时，人头部的姿态在识别时是要忽略的。

14.2.3 应用：个人照片收藏

在数码相机中自动寻找人脸，可以通过与上下文（服饰）结合的方式，提高人脸识别的性能。

14.3 实例识别

物体识别分为

实例识别（instance recognition），重新识别已知的2D或3D刚性物体
类别识别（class recognition），识别特定的一般类别的示例

14.3.1 几何配准

识别系统先在每个数据库图像中提取一组兴趣点，用索引树结构保存关联的描述子。在识别的时候，先从新图像中提取特征，然后和存储的物体特征相比较。当找到和给定物体足够多的匹配特征时，然后系统调用匹配验证步骤，其目标是确定匹配的特征的空间排列和数据库图像中的是否一致。

14.3.2 大型数据库

不同于每次比较一个图像，需要一些方法将搜索快速收窄到一些可能的图像，然后用更详细和更保守的验证阶段比较它们。

14.3.3 应用：位置识别

识别地理位置

14.4 类别识别

14.4.1 词袋

计算在查询图像中找到的视觉词的分布（直方图），比较这个分布和训练图像中的分布。

14.4.2 基于部件的模型

找到物体的组成部件并度量它们的几何关系

14.4.3 基于分割的识别

最有挑战性的一般物体识别是同时进行识别和精确的边界分割

14.4.4 应用：智能照片编辑

14.5 上下文与场景理解

上下文能够很大程度地提高物体识别算法的性能

14.5.1 学习与大型图像收集

利用大型标注的图像数据库进行学习

14.5.2 应用：图像搜索

关键词和视觉相似性结合的图像检索方法

14.6 识别数据库和测试集

记录了一些数据的网址