磨染的初心——计算机视觉的现状（1）：缘起

（这一系列文章是关于计算机视觉的反思，希望能引起一些人的共鸣。可以随意传播，随意喷，CopyLeft。）

有一则广为人知的故事，据称它就是计算机视觉的发端，在1966年，MIT的Marvin Minsky让他的本科生Gerald Jay Sussman“在暑假将摄像机连接到计算机上，让计算机来描述它所看到的东西”。这就是人工智能先驱们对“视觉”问题的态度，雄心勃勃又妄自尊大，认为“视觉感知”不过是“人工智能”实现路线上的一个简单步骤，简单到一个本科生用一个暑假的时间就能完成。半个世纪过去了，步履维艰的事实让大家认识到“视觉感知”也许同“人工智能”一样困难。

在卷积神经网络又一次激起人工智能热潮的当下，回望计算机视觉短短五十来年的发展历程，我们就像在重重困难中迷失了一样企图抓住一根救命的稻草一举获得救赎，然而寄希望于一根稻草来挑战造化的神秀注定是徒劳的。不知道是否是因为经受不住失望的打击，在本次热潮当中有些人已然开始实施“精神胜利大法”了，假装“视觉感知”是一个已经解决的问题，开始挑战“图文互转”之类的高峰，开始参与“机器作画”之类的自娱自乐。与其再一次在“视觉感知”的门外游荡或者“自欺欺人”，有必要将磨染的初心捧出来，拂拭拂拭，将向着初心的工作挑拣出来，将无用的包袱丢掉。

还是从那则故事入手，“让计算机来描述它所看到的东西”蕴含了计算机视觉“初心”的全部，人类是人类自身的仰慕者，我们要做的不过是要让计算机像人一样去“看”——得出场景的完整理解。这个“初心”也是将计算机视觉同数字图像处理区别开来的关键目标。要落实到代码上，这个目标仍然过于笼统，对其进行拆分势在必行。首先应该问一句，当我们观察我们生存的环境时，理解到了什么？ 通过直觉可以给出回答——目标、目标（和自身）在三维空间中的位置关系、目标的三维形状及其改变、目标的位移、符号。给出这个回答并非是毫无困难的，人类智能所抽象出来的高层次概念会带来严重的干扰，可以想见，即使是这个回答仍然难以获得广泛的认同。但是我并不想陷入计算机视觉基本任务的辩论，那将会是毫无意义并且浪费篇幅的。在此我将结合这五项人类理解到的要素梳理业已提出的算法和他们所基于的假设，并阐明这些算法在达成相应理解中的地位，更重要的要指出在达成“得出场景的完整理解”这个目标过程中的缺失。

PS：所涉及的内容过多，放在一篇文章里不合适。将按如下内容划分章节。

三维感知
目标识别
3.1. 图像分割
3.2. 纹理与材质
3.3. 特征提取与分类
3.4. 其它
目标（和自身）在三维空间中的位置关系
目标的三维形状及其改变、目标的位移
符号识别
数字图像处理

磨染的初心——计算机视觉的现状（1）：缘起

磨染的初心——计算机视觉的现状（1）：缘起

猜你喜欢