走进计算机视觉

视觉识别系统已经走进大众的日常生活中，比如人脸识别、换脸技术，在军事上用于导弹的导引头，来实现对物体的精准定位，还有近几年特别热门的无人驾驶包含了大量计算机视觉的应用。

Computer vision是一门多学科交叉的领域

1.Neuroscience，Cognitive sciences(神经科学，认知科学)是研究人类视觉的科学，是研究计算机视觉的基础。

2.Algorithms、theory；Systems、architecture；Machine learning(算法、理论；系统、架构；机器学习)是研究计算机视觉的工具。

3.计算机视觉的应用包括Information retrieval、Robotics(信息检索、机器人)
在这里插入图片描述

（一）什么是计算机视觉

简单来说，计算机视觉就是让计算机能够像人的视觉神经系统一样能提取出图片中的内容，甚至理解图片中更深层的意思。

在这里插入图片描述

当人看到左边这张图时，首先是看到了火车、建筑物、马路、梯子，往深层思考后判断出现了火车事故，计算机视觉就是致力于让机器能像人一样去“思考”图片。

计算机识别这张图图片时，首先生成一个像素矩阵，如右侧图片，如何搭建好像素矩阵和图片含义之间的gap，就是计算机视觉的目标。

（二）人类的视觉特征

1.Change Blindness(变化视盲)

人的眼睛都存在变化视盲的特征，就是只关注主体，而忽视非主体内容。比如当你女朋友带了耳钉，涂了新口红，问你她今天有什么不一样，你可能很难发现出这些细节。

2.Segmentation &Perception(细分与感知)

人通常会根据上下文来理解内容，比如下面这张图片
在这里插入图片描述

3.Motion without movement(没有运动的运动)

下面这张图是一张动态照片还是静态照片
在这里插入图片描述
是不是觉得圆圈在旋转，但其实这是一张静态照片

（三）计算机视觉的三大领域

1.Computational theory(计算理论)

计算（任务）的目标是什么，有哪些已知的或可用于该问题的约束条件？

2.Representations and algorithms(表示和算法)

输出和中间信息是如何表示的，哪些算法用于计算预期的结果？

计算机视觉最难的部分。

3.Hardware implementation(硬件实现)

如何将表示和算法应用到实际的硬件上，例如生物视觉系统或专门的硅片？反过来说，如何利用硬件限制来指导对表示和算法的选择？

现在，快速发展的GPU能够为计算机视觉研究提供很好的硬件实现，跑数据非常快。

（四）从图像中提取的信息类别

1.Metric 3D information(3D 信息)

可以用作测量工具
在这里插入图片描述

2.Semantic information(语义信息)

在这里插入图片描述

（五）为什么学习计算机视觉

简言之，视觉识别是非常有用的，图像和视频无处不在。

1.shape and motion capture(形状和动作捕捉)

在这里插入图片描述

2. 3D modeling(三维建模)

在这里插入图片描述

3.Face detection(面部检测)

在这里插入图片描述

4.Face recognition(人脸识别)

在这里插入图片描述

5.Biometrics(生物统计学)

在这里插入图片描述

5.Optical character recognition (OCR)(光学字符识别)

在这里插入图片描述

6.Google maps(谷歌地图)

Annotate all houses and streets
在这里插入图片描述

7.Toys and Robots(玩具和机器人)

在这里插入图片描述

8.Mobile visual search(移动视觉搜索)

Mobile visual search
在这里插入图片描述

9.Automotive safety(汽车安全)

在这里插入图片描述

10.Detection and tracking(探测和跟踪)

在这里插入图片描述

11.Virtual Reality(虚拟现实)

在这里插入图片描述

12.Medical image recognition(医学图像识别)

在这里插入图片描述

13.Vision for meteorology (关于气象的视觉)

在这里插入图片描述

计算机视觉是一个高度技术性的领域，即了解你的数学！

掌握基本的技术：人脸识别、角、线、特征、光学流、聚类和分割