商汤工程院院长沈徽：AI技术本身不产生价值必须要跟行业结合

近日，习近平总书记强调人工智能具有溢出带动性很强的“头雁”效应，必须把增强原创能力作为重点，夯实新一代人工智能发展的基础。这把原本就火热的人工智能推向新的高潮。

11月8日，在CSDN和AICamp联合举行的“2018中国AI开发者大会（AINEXTCon）”上，商汤科技副总裁、工程院院长沈徽发表了主题为“创新极限赋能百业——商汤智能视觉的产业化落地”的演讲。

沈徽认为，人工智能特别是计算机视觉技术不是一个单点上的突破，如果我们要真正把它做好，是整个技术平台性的提升。当AI跟越来越多的场景结合之后，能够获得新的需求，这些需求点会成为技术提升的输入和数据。从实践中来到实践中去，AI产业不断发扬光大。

以下是沈徽的演讲内容：

很高兴能够有机会和大家分享商汤科技在智能视觉方面的进展和落地应用方面的实践。

首先讲下大背景，人类社会的演进背后都有技术在推进，如青铜器的出现让农业有了较大发展。

过去几年，由于深度学习技术突破所带来的AI领域革命性的突破，对社会影响非常深远。往次的技术革命，技术延展了我们的手和脚，增强了我们的肌肉。而AI则延展了我们的大脑，使人类能够更加敏锐，AI技术进步对人类社会的影响和文化影响都是非常深远的，大家应该感到非常激动，因为我们正处在这样一个时代的开始。

人工智能从技术领域来说是个很泛的技术，人能做计算机不能做的我们都认为是智能。人工智能的技术路线有很多模块，基于统计思路的机器学习是人工智能里很重要的技术方向，经历了三次浪潮，1957年感知器，1986年神经网络，以及近些年基于深度学习技术所带来的AI感知层面的突破。我们现在处在第三次浪潮中，2010、2011年由深度学习真正实用化开始为代表的一次浪潮。

计算机视觉处在一个超越大众的阶段

什么是机器学习？输入x输出y，假设y满足一定规律，机器学习就能找出f，能更好的拟合概率分布。第一类是物体识别，是猫还是狗，还有一种应用是低分辨率图像变成高分辨率图像。在机器学习里面拟合f有多种不同的技术，神经网络是中间技术的一种，神经网络由多个神经元以及之间互相连接形成的一个网络，如果看到每个神经元都有一个或者多个输入通常一个输出，一个输出可能连接到多个神经元的输入里，在神经网络里每个神经元都要找到相应的位置，得出一个输出函数。

我们看神经网络的时候，X1、X2、X3这些输入叫做特征，特征在深度学习出现之前大量都是人手工把它做出来的，人根据自己的经验、自己的技术把现实世界中的数据转化成可以被神经网络消费的特征。

我们在很大程度上不需要人工做特征的识别，而是可以用神经网络把这样的特征学出来，这是深度学习网络带来的很重要的突破，它的应用会变得更加普适，因为不需要针对每个场景做特征指令级，我们可以把算力变成真正的智能，这样一个通路就打开了。

我想很客观的评价一下我们现在处在什么阶段，技术必须要到一定程度才能真正转化为生产力，否则之前更多的是研究的状态。第一阶段往往技不如人，五年前的人脸识别、语音识别和人的差距还很大，从错误率来看大概几倍甚至几十倍的差距。第二阶段是我们真正能达到甚至超越普通人的水准。第三阶段是超越专家，AlphaGo在围棋这个领域超越了专家。

计算机视觉现在大概还处在第二阶段，处在一个超越大众的阶段。一方面，在一些细分领域定义的很清楚，我们用深度学习的办法有足够的数据能够做得非常好，超越人类；另一方面，它的普适性还有很大的欠缺，包括对数据的依赖没有达到人工智能需要的量。在这个阶段，AI已经变成一个非常可用的东西了。

下面我分三方面介绍一下商汤所做的事，从技术与平台、产品和行业解决方案三个角度进行介绍。

技术与平台

深度学习最重要的三个点，第一是算法模型，第二是数据，第三是算力。

商汤在三年前构建的DNN（深层神经网络），有1200多层，在ImageNet上第一次赢得世界冠军。

再讲一下商汤的深度学习平台SenseParrots。大家知道AI领域有各种各样的开源平台，商汤为什么要建立自己的SenseParrots平台？因为商汤的数据资源处于世界领先地位，如果想取得不断的突破必须要很好的工具，这个训练平台是非常重要的工具，而领先的工具很难从开源平台获取，很多时候想真正满足用户的需求不是一个网络模型就能解决问题，我们需要能够在这样的平台上构建完整的网络，这是构建这个平台的原因。商汤内部大量的研发工作都在这个平台上完成，未来我们也会向合作伙伴输出这样的能力。

算力方面，今年商汤会拥有超过14000块GPU，体现了旺盛的需求，商汤在超过18个行业有各种各样的落地场景，在这些行业里必然有各种各样不同的基于计算机视觉的需求，所以造成对算力巨大的渴望。我们一方面把我们算力的总量提升，另一方面把算力的效率提高。

第三是数据，我们有海量可以用来训练的数据，涵盖超过18个行业，人脸只是当中的一小部分。

产品和行业解决方案

接下来讲一下应用。

这是基于商汤AR引擎的应用，把王者荣耀里的虚拟化人物放到真实的场景中，它不是简单的叠加，必须要对物理环境有3D感知，这样才能真正把虚拟人物非常自然的放在里边。手机双摄头可以获取场景的3D信息，借此我们重构出一个3D的场景，用六自由度实时跟踪技术，确定很多场景的关键点，根据这些关键点之间的关系以及变化，对虚拟物体做3D的构建，进而产生这种自然的效果。

商汤的SenseAR技术在两年前，就已广泛应用于各类短视频、直播等用户原创内容（UGC）视频平台中。我们利用人脸关键点技术，用计算机理解人脸。左边第一张图在方框里绿色的点标出了五官的位置，这样就很容易做出好玩的AR效果，这就是关键点技术实现的。

自动驾驶中的视觉感知，左边是行驶区域的检测和车道线检测，右边是在这个基础上对信号灯的检测和路边物体的检测，这些都是用智能视觉技术对环境做感知。除了感知道路也能感知车辆，更重要的是能够感知运动方向并做出相应的预测。

我们当时发了一篇关于在复杂情况下车道线检测算法的Paper，除了用程序视觉技术对环境做理解之外，我们还把视觉技术和结构化技术做结合，使我们对遮挡或视觉不清情况下的车道线恢复能起到很好的效果，中间用传统CNN做，很多车道线不是特别清晰，右边做了一个解析，效果好了很多。这个创新告诉我们当做AI技术或深度学习技术时一定不要限制在窄的范围内。

这是DMS中的视觉感知，是用于智慧车舱的技术，可以对大货车、出租车司机进行检测和监控，看他是不是注意力集中，有没有危险动作，有没有疲劳等等，这是多种视觉技术的结合。第一张图是注意力，注意力是如何检测的呢？我们看他视线的方向，在DMS中做视觉跟踪，我们做眼球检测，计算出注意力的方向进而做一个预估，可以达到非常高的精度。

下面讲一下智能视觉赋能城市大脑，举一个用于寻人的真实案例：今年初南方某地公安局使用我们的技术在三小时之内就找到了一位走失三天、患阿尔茨海默症的老人。

我们不光看人脸，还看很多其他信息，比如一个交通路口，信息和道路状况结合之后可以做自动交通管控。很多时候大家会说这个就是去识别和做一些检索，但是当数据量级很大的时候就很难做了，为此我们构建了SenseFoundry方舟城市级视觉开放平台，同时做实时检测、实时跟踪和实时分析，这在北上广深等大城市中已经应用了。

它一方面要有系统的提升，另一方面要有算法的提升。如果想从十个人里识别一个人，和一千万人里识别一个人，对算法的要求是完全不一样的。我们人脸识别的技术在不断提升，包括采用增量学习的技术，对不同环境高容忍度、高普适性的技术。在此之上我们做了人脸和人体的联合搜索，大量的环境下很难捕捉到一个完整的人脸，这个时候人脸、人体再加上其他信息去做联合搜索能大大提高搜索的准确度。

去年苹果第一次在手机上推出了3D人脸解锁，但对人脸解锁的研究商汤早就进行了。和iPhone不一样，我们要想在安卓系统上为多家厂商提供人脸解锁的能力，我们需要有一定的算法优化。人脸解锁不单单是简单的脸和脸的比对，很重要的是活体检测和注意力检测，不能拿一张照片就给手机解锁，别人不能在你睡觉的时候拿着你的脸给手机解锁。人脸解锁虽然已经实现了一个功能但是它在不断迭代，单纯用人脸解锁手机时，准确率可能需要达到10的负4次方量级，相当于4位密码，但当你要做支付、认证等和金融相关的应用时就需要有10的负6次方，甚至负8次方量级才能达到要求，我们现在已经超过了10的负8次方。

活体检测方面，进攻方会想出各种各样的办法用人脸攻击识别系统，识别系统不断发现潜在漏洞，避免系统性的活体检测失误。商汤有一个专门的团队每天的任务就是想着怎么把活体检测的系统突破掉，这里有几个简单的攻击手段，包括纸质照片、面具、三维面具和视频等，我们一方面不断寻找新的方式做攻击，同时做防守。

这是人脸3D重建，拿着一个手机的前摄从五个角度拍到人脸，当拍到五张照片之后用五个方向的人脸做一个3D的重建。

下面看一些其他产品。想必大家已经在一些小区、大楼看到刷脸进门，从以前刷卡按指纹变成了刷脸。当人在运动当中走过一个闸门时，我们希望以最快的速度检测到人脸，并用最快的速度判定应该开门还是关门。大家可以想象随着人步入通道脸的大小不断变化，怎样能获取更高精度的检测？最简单的是把图片按照不同的大小进行分割，但这样算法效率非常低，99%的计算都是无用的计算，我们是在模型里做一些优化，能大大提高效率，训练的时候精度提升会变得更快。

这是一些数据，右上角的表用不同的技术把它叠加在一起，包括精度和速度提升，我们可以通过不同的硬件做选型。

此外，刷脸技术还用于很多不同的场景，包括身份验证、门禁、闸机等等。商汤是通过刷脸进办公室的，今年北京航空航天大学9月份新生入学时，也用了商汤SenseHello刷脸系统做注册。

刚才说的技术产品都是由内向外的，行业解决方案是因为大量客户很多时候并不在乎用什么技术，更在乎能帮助他解决什么问题，我们要提供解决方案，这样才能把他的精力从痛点移开，进而去关注他的业务。

今年九月，在上海召开的世界人工智能大会上，我们在人工智能大会现场的黄浦江西岸做了智慧公共空间管理系统，融合了多种感知技术，用视觉技术和IOT技术做观察、理解、预判和行动形成一个管理闭环。只有提供这样的完整解决方案客户才能够实实在在感受到它的价值。

AI必须要跟行业结合才能产生价值

介绍了这么多产品和技术落地的事情，我想谈的是人工智能特别是计算机视觉技术不是一个单点上的突破，如果我们要真正的把它做好，它是整个技术平台性的提升，也是商汤在过去多年不断积累，在各个行业寻求问题，构建研究能力和技术上的突破。

AI技术本身是不能产生价值的，必须要跟行业结合，跟实际场景结合。当AI技术跟越来越多场景结合之后，一方面能够提供价值，另一方面能够获得新的需求，这些需求点会成为技术提升的输入和数据，从实践中来到实践中去，AI产业不断发扬光大，真正拓展我们的脑力和感知能力，使社会生产力进步。我觉得每一位都可以加入到AI系统里面来，拥抱AI，从中获取能更好地解决现在问题的方案，把社会带到一个新的高度，谢谢大家。