“云中观世界”之二：视觉智能生态

摘要：人工智能历史上的三次golden time是什么？这次有何不同？视觉智能应用成功的关键因素有哪些？本文通过众多的成功实例和遍地黄金的视觉计算应用机会，对这些问题进行探讨，并试图讨论云上视觉智能的终局。

（本文根据华先胜/方广2017年5月22在全球人工智能技术大会上的演讲整理）

今天和大家报告的主要是近两年在阿里云上做的视觉智能方面的工作和一些思考。

首先看一下人工智能的三次“春天”。第一次是在20世纪50年代，人工智能的概念首次提出，大家觉得人工智能在20年之内会改变世界，所有的工作都会被人工智能颠覆。但是后来很遗憾，10年以后发现不行，大家很失望。第二次是80年代，神经网络的提出，BP算法的提出，以及专家系统的初步结果，大家又很高兴，人工智能又要改变世界，取代很多人的工作，但是后来证明还是不行，人工智能又一次进入了低谷。第三次就是今天，这次是不是真的春天呢？昨天有一个论坛也在探讨这个问题。这次有一些不一样，有很多不同的观点，有人认为深度学习取得了很大的突破，计算能力大大提升，数据更多，网络带宽也大大增加。还有一个很重要的原因，我们已经看到一些结果，虽然这些结果离真正的智能还差很远，但是在一些领域已经取得了非常不错的结果，不管是只有PR效应的还是真正在产业界的应用，都有一些可喜的结果。

云上的大数据视觉智能

人工智能技术将会改变哪些行业？我们先从视觉的角度看一看，视觉智能可以从云上做，也可以从端上做，我们今天就从云上来看。我们看看现在发生了什么样的事情，其实有的是发生了很多年的事情。

大家看这些图，左上角是交通的监控场景，右边和左下是治安和教育的场景，最后一个是直播。直播是主动的，前面三个是被动的。这些大量的数据，其价值有没有被充分发掘出来，这是一个很大的问题。例如，在全世界有数以亿计的摄像头，中国占了一多半，每年有几千万的摄像头被采购，中国一个一级城市里就有几十万的摄像头。大家可能也注意到一些，这些摄像头的数据到底是怎么被利用的，大家开车可能被处罚过，还有交警的控制中心经常要巡检查看，公安局里出了什么案件也需要调录像查看。仅有这些吗？投入了这么多，这些视频的价值怎么才能充分被挖掘出来，这是一个很大的问题。

再看个人的图像和视频数据，这个量也挺大，和我们每个人切身相关。我们每到一个好的地方、有好的风景，自己看没看没有关系，一定要让相机“看”一下。另外还有各行各业的数据，比如无人机的数据、工业的数据、医疗的数据，以及体育、娱乐、新闻等等。这些大量的数据，在技术往前发展了一大步的今天，它们的价值能不能充分挖掘出来？

我们处理这样的数据，就是一个视觉大数据的问题。它的特点是显而易见，第一就是数据量非常大。视觉数据量最大的地方就在城市里面。有一些电视台有100万小时的数据，已经很多了，后来想一想，如果一个城市里有10万个摄像头，跑10个小时就是100万小时。第二是很多应用有实时性的要求。例如，交通红绿灯配时的自适应优化，就需要实时进行分析，实时做出决策。第三点就是数据的复杂度非常高，各种情况下的数据都有，各种应用的数据都有，数据的干净程度和质量都有很大的不同，需要完成的任务、开发的智能也都是不一样的，这就对算法的普适性提出了很高的要求。
视觉智能的五要素和现状
我们首先回顾一下现在的技术和数据等各方面是不是准备好了。

第一方面，从算法的角度来看，准确率是我们首先关注的目标。我们经常看到这个公司又刷新了一个公测集的记录，包括我们自己最近也刷了一个车辆检测的记录。这是不是说明视觉智能已经很厉害、已经超过人了？在现实的应用当中往往是非常残酷的，公测集上的结果往往只是一个开始，在实际应用中还需要很多非常繁重的工作，才能使得我们的算法在一个行业里做到可用。其次，从覆盖率上来讲，这个问题就更大了，在座的各位可能很多都是学生，我们在写论文时很少有人关注覆盖率这个问题。覆盖率是什么意思？如果从识别的角度来讲，就是识别的范围足够大。这个问题很有意思，例如，ImageNet中1000类物体场景的识别，我们拿到真正的应用场景里去看，是远远不够的；或者说，实际应用场景感兴趣的常常不是这些类别，也就是说这些还没有覆盖到用户需要的地方。你要覆盖全世界是非常难的事情，但是不见得是不能做的事情。几年前我在微软还尝试做过百万标签识别的问题，这个准确率当然很难做得高，但是在一些场景下也是可以用的，例如搜索。覆盖率在视觉搜索中的体现，例如，能搜衣服，不能搜鞋子不行，不能搜其他东西也不行。用户的使用体验往往与覆盖率有非常大的关系。

第二方面，计算效率。效率决定了这个事情可不可能发生，比如我们要处理城市几十万的摄像头，需要花几十亿就完蛋了，这不是成本的问题，是这个事情可不可能发生的问题。从计算的角度来讲，不仅仅是计算的效率，还有计算的平台，尤其是当你处理大量数据时，不是一两台机器，而是百台、千台、万台时，就需要处理系统和流程的问题，比如说容错、流程的控制等，这就需要一个大的计算平台来支撑。从计算来讲，效率是非常重要的，包括平台的效率、计算节点的效率。例如，一台计算机放多张GPU卡，这些卡如何充分利用起来。还有算法本身运行效率的问题。刚才我忘了说一句，关于算法的一个结论：我们确实有很大的进展，但是还有很长的路要走。对于算法而言，只有把计算的效率发挥到极致，算法的优势才能发挥到极致。

第三方面，数据。这也是争论最多的问题，昨天也有一个论坛讨论数据的问题。大家经常发现数据的威力有时会超过算法，当然如果只是学生作为借口，做不好算法说是数据的问题，那是另外一回事。在昨天的论坛上也一直讨论数据和深度学习算法的问题，实际上数据的使用有两个方面的问题，这个还是一直没有说清楚。数据的作用到底在哪里？我觉得很多时候大家只是关注了数据对算法研发的作用，但是这只是其中一个作用；而数据对智能本身是另外一种作用，而且是很重要的作用。没有数据，就没有从数据产生的智能。至于没有大量数据是不是就没有深度学习算法，这个还可以商量，也许少量的数据也是可以的，但是作为智能，尤其是强人工智能的话，如果没有大量数据恐怕是不可能的。所以，数据是有两个维度的作用在里面，数据本身是算法研发的原料，同时数据又是产生智能的原料，这是数据的两个作用。数据本身也有很多的困难，数据量大的时候，包括采集、传输、接入、融合和存储等各方面都不是简单的事情。还有非技术方面的困难，尤其是数据的开放，其实在中国这件事情已经比西方国家好得多了。在中国，大家对数据开放没有那么纠结，这也是人工智能在中国获得更快发展的一个很重要的原因。

第四个方面，刚才讲了人工智能风声水起，视觉计算遍地开花，但是，花开了，能不能得到结果？就是你做的事情是不是个正确的事情，是不是真的事情。有时候看起来是个真事情，其实是个伪课题、伪需求。昨天也有人提到伪需求，我们在实际当中确实是会碰到的。客户有时提出的需求，仔细想一想可能就是伪需求，也就是说不是一个能够带来真正价值的需求。无论你带来的价值是节省了人力、降低了成本，还是提高了安全性等等，这些都是要非常明确的。如果这些不明确，你就没有一个商业的模型和应用，没有明确的商业应用，没有持久的商业应用，这个AI也就不能持久。

总结一下，一共五点（有一点没有直接讲）：算法是安身立命之本；计算平台保证算法能大规模处理大量数据，也是计算效率的问题；数据，一方面是算法研发的原料，也是产生智能的原料；用户这个要素刚才没有单独分析，但它与商业模式和数据是非常相关的。商业上，有大量的用户使用，或者说用户少，使用的频率比较高也是OK的，而用户本身也能产生数据。例如，搜索引擎就是利用了大量用户的数据，每个人对搜索引擎都是有贡献的。商业刚才讲了，合适的商业模式，保证你做的是正确的事情，不是虚假需求。
视觉智能实例：拍立淘
下面讲几个例子，有的是已经做好的，有的是正在做的。

首先看基于图像的商品搜索。我们今天讲的是视觉的搜索，是通过拍照的方式搜索商品。淘宝上有一个功能就是拍照搜索，叫做“拍立淘”。它要解决的问题就是文字之外的搜索入口，是无法用简单文字描述的搜索需求，是种简单直接的搜索方式。如果这个应用每天的用户和交易量在千万级别的话，还是很有价值的。这里关键的技术包括商品识别、商品检测、和商品描述。首先，用户拍了商品照片后，要做出精准的商品类型判断，不然后面就全错了；然后要知道这个商品在图像中的位置，再用一个深度学习网络做特征提取；后面还有检索、排序、搜索质量判断，以及结果呈现。这里的几乎每一步都是用深度学习来完成的。

我们来看几个例子。这是同一个包，但其实图像是不一样；这是一只鞋子，虽然我们没有找到同款，但找到了非常相像的款式；这是一件圆领衫，没有什么显著的特征，比较难做，但也是找到了很像的衣服；这个杯子是一次开会的时候看到的，你要用文字搜就说不清楚了，但用图像找到同款却易如反掌。还有个例子，是和朋友喝茶的时候，看到这个泡茶杯太好了，我之前没有见过；杯子上面有一个红色的按钮，就是水倒下去后，水是在上面泡着茶叶，觉得泡的浓度差不多了，就可以按这个红色的按钮，茶水就流下去了。我想买，但不知道这个杯子叫什么。好在我们有拍立淘，一拍就知道，这种杯子叫做飘逸杯，淘宝上有很多可以选择。

原文链接

“云中观世界”之二：视觉智能生态

猜你喜欢