计算机视觉奠基人Alan L. Yuille ：深度学习在计算机视觉中作用有限，需要找到新的突破口！...

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

作为计算机领域的先驱者之一，Alan L. Yuille 为该领域的发展做出了巨大贡献。随着深度学习的的兴起和流行，越黎越多计算机视觉领域的研究开始紧跟潮流，转向深度学习。然而，最近 Yuille 却指出，计算机视觉的发展面临瓶颈，不破则不立，但深度学习这时候发挥的作用实际上是有限的。那么在他看来，计算机视觉的突破口在哪里呢？ 640?wx_fmt=png

深度学习的历史

640?wx_fmt=png

成功和失败

640?wx_fmt=png

640?wx_fmt=jpeg

图 1：(来源) 深度学习可以执行各种各样的视觉任务，包括边界检测、语义分割、语义边界、曲面法线、显著性、人体部位和目标检测

640?wx_fmt=png

640?wx_fmt=jpeg

图 2：(来源)UnrealCV 使视觉研究人员能够轻松地操纵合成场景，例如改变沙发的视角。我们发现沙发的 Faster-RCNN 检测的平均精度 (AP) 在 0.1 到 1.0 之间，对视点的敏感度极高。这可能是因为训练中的偏差导致 Faster-RCNN 更倾向于特定的视角。

第三，深度网络对图像的变化过于敏感，而这些改变在人类看来可能并不影响对图像的判断。

深度网络不仅对标准的对抗性攻击敏感，这种攻击导致图像出现难以察觉变化 [17][18]，而且对环境的变化也过于敏感。图 3 显示了将吉他 PS 成丛林中的猴子图片的效果。这导致深度网络将猴子误认为人类，也将吉他误认为鸟，大概是因为猴子比人类更不可能携带吉他，而鸟类比吉他更可能在猴子附近的丛林中 [19]。最近的研究给出了许多深度网络对环境过度敏感的例子，比如把一头大象放在房间里 [20]。

640?wx_fmt=jpeg

图 3：(来源) 添加遮挡器导致深度网络失败。左图：用摩托车进行遮挡后，深度网络将猴子识别为人。中间：用自行车遮挡后，深度网络把猴子识别为人，丛林把网络对自行车把手的识别误导为鸟。右图：用其他遮挡后，深度网络将猴子识别为人，而丛林将网络对吉他的识别误导为鸟。

这种对背景的过度敏感也可以归咎于数据集规模有限。对于任何对象，数据集中只会出现有限数量的背景，因此神经网络会偏向于它们。例如，在早期的图像标注数据集中，观察到长颈鹿只出现在附近的树木中，因此生成的标注没有提到图像中没有树的长颈鹿，即使它们是最主要的对象。

对于像深度网络这样的数据驱动方法来说，捕获背景大量变化的困难以及探索大量噪声因素的需要是一个很大的问题。要确保网络能够处理所有这些问题，可能就需要任意大的数据集，这对训练和测试数据集都提出了巨大的挑战。下面我们将讨论这些问题。

大型数据集还不够大

组合性爆炸

640?wx_fmt=png

克服组合性爆炸

从现有形式的深度网络来看，这样的方法似乎不太可能处理组合爆炸。数据集可能永远不够大的问题一直存在，导致无法训练或测试。下面我们简要介绍一些潜在的解决方案。

组合性

组合性是一种基本原则，它可以被诗意地描述为“一种信念的体现，这种信念认为世界是可知的，人们可以将事物拆解，理解它们，并在精神上按照自己的意愿重组事物”。关键的假设在于，结构是按照一组语法规则，由更基本的子结构分层构成的。这意味着，子结构和语法可以从有限的数据中学习，然后泛化到组合的场景中。

与深层网络不同的是，组合性模型需要结构化的表征来明确模型的结构和子结构。组合模型提供了超越所见数据的推理能力，对系统进行推理、干预、诊断，以及具有基于相同的底层知识结构解决许多不同问题的能力。引用 Stuart Geman 的话：“世界是组合的，或者说上帝是存在的。”否则上帝就要手动焊接人类智能了 [21]。尽管深度神经网络拥有某种形式的复杂性，如高级特征由来自低级特征的响应组合而成，但这并不是本文中提到的组合性。

640?wx_fmt=jpeg

图 4：(来源) 从 (a) 到 (b) 到©，可变性递增，并且使用了遮挡。特别是©是一个组合大数据集的例子，它本质上与验证码相同。有趣的是，对验证码的研究表明，组合模型的性能很好，而深度网络的性能要差得多。

图 4 展示了一个组合案例 [22]，展示了合成分析 [23]。

组合模型的一些概念优势已经在视觉问题上得到了证明，例如使用相同的底层模型 [24] 执行多个任务和识别 CAPTCHAs[25] 的能力。其他非视觉示例也证明了同样的观点。

尝试训练深度网络进行智商测试没有成功。

[26] 在这个任务中，目标是在一个 3x3 网格中预测丢失的图像，在这个网格中其他 8 个格子的图像都已经给出，并且底层规则是组合性的 (并且可能存在干扰项)。相反，对于一些自然语言应用程序，神经模块网络 [27] 的动态结构似乎足够灵活，可以捕捉到一些有意义的组合，其性能优于传统的深度学习网络。事实上，我们最近证实，经过联合训练后，各个模块确实实现了它们预期的组合功能 (如 AND、OR、FILTER(RED) 等)[28]。

组合模型具有许多理想的理论特性，例如可解释性和能够生成样本。这使得错误更容易诊断，因此它们比像深度网络这样的黑盒方法更难被欺骗。但是学习组合模型是很难的，因为它需要学习构件和语法 (甚至语法的性质也是有争议的)。此外，为了进行综合分析，他们需要拥有目标和场景结构的生成模型。将分布放到图像上具有挑战性，只有少数例外，如人脸、字母和规则纹理图像 [29]。

更重要的是，处理组合爆炸需要学习三维世界的因果模型以及它们如何生成图像。对人类婴儿的研究表明，他们是通过建立因果模型来学习的，这些因果模型可以预测他们所处环境的结构，包括朴素的物理学。这种因果关系的理解使我们能够从有限的数据中学习，并泛化到新环境中，这类似于将牛顿定律与托勒密的太阳系模型进行对比，前者用最少的自由参数给出因果关系的理解，而后者给出非常准确的预测，但需要大量的数据来确定其细节。

在组合数据上的测试

在显示世界的组合复杂性上测试视觉算法的一个潜在挑战是，我们只能在有限的数据上进行测试。博弈论通过关注最坏情况而不是一般情况来解决这个问题。 如前所述，如果数据集没有捕捉到问题的组合复杂度，那么有限大小数据集上的一般案例结果可能没有意义。如果我们的目标是为自动驾驶汽车开发视觉算法，或者在医学图像中开发诊断癌症的视觉算法，那么关注最糟糕的情况显然是有意义的，因为算法的失败可能会带来严重后果。如果能够在低维空间中捕捉到故障模式，如立体视觉的危险因素，则可以利用计算机图形学和网格搜索对其进行研究 [30]。但是对于大多数视觉任务，特别是涉及组合数据的任务，很难识别出少数可以被隔离或测试的危险因素。一种策略是将标准对抗性攻击的概念扩展到包括非局部结构，这可以通过允许对图像或场景改变 [31] 但不会显著影响人类感知的复杂操作（如遮挡或改变被观察物体的物理属性）来实现。将这种策略扩展到处理组合数据的视觉算法仍然具有很大的挑战性。但是，如果在设计算法时考虑到了组合性，那么它们的显式结构可能使诊断并确定它们的故障模式成为可能。 640?wx_fmt=png

结论

几年前，Aude Oliva 和 Alan Yuille(第一作者) 共同组织了一场由美国国家科学基金会资助的计算机视觉前沿研讨会（MIT CSAIL 2011）。会议鼓励大家坦诚交换意见。特别是与会人员对深度网络在计算机视觉方面的潜力方面存在巨大的分歧。Yann LeCun 大胆地预言， 不久之后每个人都将使用深度网络。他的预测是对的。深度网络的成功是卓越的，帮助计算机视觉变得非常受欢迎，大大增加了学术界和工业界之间的互动，导致计算机视觉技术应用于许多学科，并产生了许多其他重要的研究成果。尽管深度网络取得了成功，但还存在巨大挑战，而我们要实现通用人工智能和理解生物视觉系统，必须克服这些挑战。我们的一些担忧与最近对深度网络的批评类似 [32][33]。随着研究人员在越来越现实的条件下处理越来越复杂的视觉任务， 最严峻的挑战就是如何开发能够应对组合爆炸的算法。虽然深度网络是解决方案的一部分，但我们认为还需要涉及组合原则和因果模型的补充方法，以捕捉数据的基本结构。此外，面对组合爆炸，我们需要重新思考如何训练和评估视觉算法。

END

声明：本文来源于网络，【InfoQ】

如有侵权，联系删除

加群交流

关注计算机视觉与人工智能技术，欢迎加入CV联盟群

扫描添加CV联盟微信拉你进群，备注：CV联盟

640?wx_fmt=png