根据 Stanford CS131 课程写的笔记（大部分为 note 翻译），英语水平一般，如有错误请评论指正

Lecture 1 Course Introduction

什么是计算机视觉？

定义

从数字图像中提取信息。这些信息可以随着定义不同而改变，可以是空间测量、现实增强等等
构造一个可以理解图片意思并能应用的算法。

一个艰难的问题

50 年来，计算视觉都没有很好的被解决。
- 可以暴力算出棋类解法，但是无法写诗
- 目标识别比 3D 建模更难
- 计算机视觉难在像素和其意义的不同

理解人类视觉

视觉定义

一个可以提取尽可能多的信息的传感器（眼睛、相机）。这方面相机优于人眼，因为可以通过技术看到更远的地方。
处理器需要处理信息并提取其中的含义。这部分计算机视觉仍然落后于人类。

人类视觉系统

1962 年，科学家发现猫的一些视觉神经只有在特殊的线条位置、特别的角度会产生反映。由此引发了对人类视觉的研究。

人类视觉有多强？

速度
人类视觉系统效率极高，下图是人类对动物 / 非动物图片反映时间
错觉
人类视觉会因为专注于图片的重要部分而忽视不相关的小细节，如果信号十分接近背景，那就十分难以从图片的相关部分中检测和分割出来。
环境（背景知识）
人类依赖先前的知识来识别图片的线索（图片的重点、特殊位置会出现什么），这是计算机视觉难以做到的。环境也能帮助大脑补偿阴影中的颜色，但是有时候环境也会愚弄人类。

从大自然中学习

计算机视觉不是完全模仿人脑，然而，神经学家希望能深入了解视觉、语言和其他形式的智力背后的概念。

从图片中提取信息

可以提取两类信息：度量值、语义信息

度量设备

自动驾驶到未知地点需要扫描周围环境确定最佳路径，这时计算机视觉就可以作为度量设备测量环境并创造环境地图。立体摄像头通过三角测量提供深度信息，像眼睛一样。如果我们将视角点提高到包含物体所有面，我们就可以创造物体的 3D 表面，甚至可以通过 Google 图片重构一个纪念碑的 3D 模型。同时，计算机视觉还可以帮助机器理解物品的 3D 几何结构，以便于机器找到好的把握位置。

语义信息来源

在度量信息之上还包含着密集的语义信息。我们可以标记图片中的各种物体，例如：整个风景、人、动作、姿态、脸等等。医学图片也有很多语义信息，例如：通过皮肤细胞的图片来判断是否有癌症。

计算机视觉的应用

以下是一份不完全的计算机视觉应用列表
- 特效：将人类演员的动作表情复制到动画人物上。我们需要检测 3D 空间内演员脸上标记的准确位置，然后将它们重构到人物上，例如：阿凡达。
- 3D 城市模型：用于将无人机拍到的照片整合到一起，创建城市的 3D 模型。
- 风景识别：识别图片的拍摄地点。
- 面部检测：可以帮助相机识别并专注于人脸，拍出更好的照片。
- 光学字符检测：用于读取邮政编码之类，最老的应用之一。
- 移动视觉搜索：加快以图搜图的速度。
- 自动驾驶
- 自助收银
- 基于视觉的互动：Microsoft’s Kinect 和任天堂的 Wii
- 增强现实： AR(Augmented Reality)
- 虚拟显示：VR(Virtual Reality)

[CS131] Lecture 1 Course Introduction