麻省理工学院赵明民：能穿墙透视的计算机视觉

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日，第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。麻省理工学院赵明民带来报告《能穿墙透视的计算机视觉》。

赵明民，麻省理工学院在读博士生，导师为美国工程院院士DinaKatabi。他的代表性工作是非接触式的智能感知技术，以及其在智能家居、健康监测领域的应用。他主导研发了系统来识别用户情绪，监测用户睡眠以及估计人体的姿态。他的工作收获主流媒体超过200次的报道。曾获得2019年百度奖学金，2020年WAIC明日之星云帆奖。美剧《生活大爆炸》曾以他的技术为题拍摄了一集剧集。

能穿墙透视的计算机视觉

首先，赵明民解答了提前收到的同学们的问题，即“为什么会想要做穿墙透视这样的一个课题？”想在智能家庭中做健康监测是赵明民的团队想做这一技术的一个主要原因。

在正式介绍开始之前，赵明民展示了如果想要在家里监测一个人的健康状况所能使用的方法。如果想在家里监测老人的健康状况，比如老人患有帕金森或者是一些运动相关的疾病，就需要监测这个老人的走路情况，会在他的腰部、腿部佩戴上很多的加速度计、传感器等等。如果一个老人他可能会有摔倒的风险，就需要让他在脖子上系上一个有按钮的求救器，希望老人在摔倒之后能够按下按钮，得到医疗人员的帮助。如果一个人他的睡眠有问题，比如睡眠呼吸中断、失眠等，监测这个人的睡眠就需要让这个人带上检测脑电信号的仪器以及插入鼻腔里面的呼吸计量器等，所有的这些设备都带在身上才能够检测这个人的睡眠。

从上面这些情况可以了解到，用现有的医学方法在家里面监测一个人的健康状况是非常不方便的。赵明民想要做的是能否用新的技术来改变这一情况。可能很多同学会想到利用现在发展得非常好的计算机视觉技术，现在的计算机视觉能够很好的提取出环境中人的动作，很好的感知人体，比如说这个人在做什么动作，环境中有多少个人，他们的手脚在什么位置，更精细的工作甚至能对这个人的身体进行一个3D的建模，能够知道每一个部分的具体位置以及他的表面的朝向等等。但是计算机视觉有一些致命的缺点。首先对于居家环境来说，很多人并不会愿意在自己家里24小时都开着摄像头。其次计算机视觉容易受到障碍物的遮挡，比如人在家里面可能会被家里的电视、桌子、墙等挡住。当在家里光线不佳或者是关了灯之后，计算机视觉就像人眼一样，拍一张照片就一抹黑什么也看不见。另一种想法，如果用无线信号来检测或感知环境中的人体会怎么样呢？无线信号就像我们家里使用的WIFI一样，它不会受到光线的影响，也不会受到障碍物的影响，如果在家里的客厅放一个无线信号的AP（Access Point），那么在卧室或者是厨房都能用，这是因为无线信号能穿越普通的墙体，由于人体大部分都是水，所以这些信号也会从人体身上反射回来，如果能够捕捉和分析这些信号就能展开研究。现有的一些研究已经证明了通过这些有限的反射能够确定一个人的位置，比如说能知道这个人是在客厅还是在厨房或者是在沙发上、在床边等等。

接着，赵明民对提到的两种人体感知方法进行了比较并进一步引出了报告的主要内容。第一种方法基于计算机视觉。尽管该方法容易受到障碍物、光照等的影响，但它能够捕捉到比较丰富的人体信息，能够知道一个人的具体姿态，能够看到一个人的完整动作。另一方面使用无线信号的好处是它能够穿越障碍物，不会受光照的影响，关了灯依然能够使用。但无线信号的缺点是它会把一个人抽象成一个点，并不能得到很多的信息，只能得到这个人的具体位置。

赵明民介绍的主要内容是过去几年他在博士阶段做的一系列工作。他们使用了人工智能和无线系统的一个结合，这个结合体能够结合计算机视觉和无线信号的优势，它既能做到穿越障碍不受障碍物的影响，也能捕获到更丰富的人体姿态信息。

在具体讲述这些工作之前，赵明民向我们展示了相关的一些结果。第一个例子是利用无线信号穿越墙体识别人体姿态。如上面第一张图所示，右上角的视频展示的是一个照相机拍摄到的场景，而下方的两个图是使用无线信号估计的人体姿态，可以看到当这个人走到墙体的后面之后，系统依然能够准确的识别出这个人的姿态。第二个例子是不同障碍物的测试。如上面第二张图所示，场景中有很多箱子、一个海报以及一个展览柜，这些对于计算机视觉来说都会造成很严重的遮挡，让系统无法识别人体的姿态，而基于无线信号的系统，依然能够准确的识别出人体的姿态。第三个例子是在黑暗场景中的测试。如下图所示，可以看到场景中只有微弱的灯光，人的肉眼也很难识别出环境中的人，特别是当他们走进较为黑暗的一侧，而使用无线信号的系统，无线信号并不受光照的影响，依然能够准确的判断出人的位置和他们的姿态。以上这些结果都是2D的人体姿态估计。

接下来的例子是加入了深度信息的3D人体姿态估计。如下图所示，所有的人体姿态都是放在一个3D世界里面的，系统可以知道每一个人的远近距离以及他们之间的相对位置。

然后，基于以上这些结果的展示，赵明民介绍了这个系统是如何工作的。他首先介绍的是无线信号的具体表示方法。大家可能看过很多利用手机图片或者是利用照相机拍摄到的照片、视频来进行人体姿态识别的方法，这些系统的输入是一张自然图片或者是一段视频，而对于无线信号来说，这是一个完全不同的系统。

上图是一个纵向的无线信号的热力图和一个横向的无线信号的热力图。这种热力图和常见的热力图或者肉眼看到的 RGB图片是非常不一样的，有一点像雷达图片，它显示的是在不同的位置上接收到的信号反射，信号反射越高，就表示那个地方越可能有一个移动的物体，比如一个移动的人。报告中播放了视频，视频中显示伴随着人的移动，这两个热力图上面的点也会跟随着这个人的位置移动，这个点的位置就大概反映了当前这个人所在的地方。随之而来的问题是，如何来标注这样的数据呢？比较了解机器学习的同学可能都知道，现在的机器学习需要海量的数据。比如说如果想要训练一个image classifier来判断一个图片里面是一只猫还是一只狗，就需要找到志愿者来标注成千上万的图片，然后再把这些图片扔给一个深度学习网络，经过一段时间的训练，它也能够模仿人类的判断，然后识别出图片中的猫和狗。如果要训练一个以计算机视觉为基础的人体姿态估计系统，就需要拿出一张图片，让志愿者标出这个人的头、手关节、脚腕的位置，有了这些key point关键点之后，就会有一个神经网络来做同样的事情。但问题是如果把这些无线信号的热力图交给一个人，让他来标注这里面的人体姿态，哪怕对于最专业的无线信号专家来说，这也是一个不太可能实现的任务。

在赵明民的团队系统中，他们使用的是跨模态知识蒸馏的方法。系统中有两个神经网络，一个是老师神经网络，一个是学生神经网络。老师神经网络以 RGB图片作为输出，再利用现有的一些方法来估计这里面的人体姿态，并产生一个自信度图。与此同时，学生神经网络以无线信号作为输出，在训练过程中，学生神经网络会模仿老师的行为，试图产生一个和老师一样的自信度图，有了这样的自信度图之后，再经过一些后处理，学生神经网络就能提取出人体的姿态。这样的系统在训练完成之后，就不再需要老师神经网络，也不再需要摄像机，只需要无线信号就能完成推理。

在设计这个网络的过程中，也会有很多不一样的挑战。赵明民的团队遇到的第一个挑战是人体的镜面反射性。赵明民首先用一个简单的例子给大家介绍了什么是镜面反射。如上图所示，左边是一个无线天线阵列，右边是一个反镜面物体，当无线信号照射到反射体之后，只有当和反射面垂直的这一部分信号，会反射回天线并被天线捕捉，而照射到其他部分的天线，由于它们的入射面并不和镜面垂直，这些信号就会弹射到别的方向，而没有反射回无线天线，这些信号是不会被无线天线捕捉到的。就像对着镜面发射了一串信号，当对它进行拍照之后，只能看到很小的一部分，即入射角和镜面垂直的那一部分，而其他的位置都无法看到。

那么，这对人体的识别意味着什么？如上图所示，以人体为例，这个情况下无线天线的信号照射到这个人的手腕上，恰巧在这一个时刻，这个人手腕上的反射回到了无线天线阵列，无线天线就能看到这个人手腕返回的反射，而在这个人的头部、胸部甚至腿部的反射，它们都没有反射到无线天线阵列，这样的后果就是看不到这个人身体的全部，只能看得到他的手。解决这个挑战的方法是利用人时间动作的连续性。当这个人在继续往前走的时候，假设到了下一个时刻，可能又会看到他的胸部返回的反射，而此时他手上的反射将无法看到，而他头部的反射也无法看到。利用人不断动作的连续性，分析在不同时刻的反射信号，就有机会看到这个人身体的各个不同部分。但问题也不是这么简单，可能某一时能看到这个人的手，另一时刻能看到他的膝盖，接下来时刻又看到他的脸，或者是他的脚等等，无线信号并不像图片那样能够准确的识别这些信号来自于什么地方，无线信号只能接受到反射，而不知道这个反射是来自于面部还是来自于手部。赵明民的团队使用的方法是用一个沿时间线的神经网络，来分析所有的这些无线信号，并且补全这个人的姿态信息，经过补全就能够得到一个序列的完整的人体姿态。

另外一个挑战是关于计算量的问题。如上图所示，无线信号的每一个时间点表示了来自于3D空间里面反射回来的信号的具体位置。如果按照刚才的想法，把时间轴加上去的话，这里的无限信号就变成了一个4D的信号。而现有的计算机视觉、无线网络或者是神经网络通常处理的是2D的图片，或者是3D的视频，4D的信号对于现在的无线网和神经网络来说实在是太大了，它的计算以及存储的需求，已经超过了现有硬件能够支持的水平。赵明民的团队使用的方法是神经网络分解，具体的理论和操作都在详细的论文里面。赵明民简单介绍了它的high level的idea，感兴趣的同学可以去具体参考论文。该方法的核心想法是，把4D的神经网络分解成两个3D神经网络的结合，经理论证明，这样的分解在特定情况下是等价的。也就是说所有的4D的运算在可以通过两个低维的3D运算来拟合它的结果。

无线信号除了能够捕捉人体的姿态以外，还能捕捉到很多人眼看不见的信息，比如无线信号能够识别和捕捉人体的生理信息，当人在呼吸和心跳的时候，胸腔也会起伏运动，而这些微小的起伏运动其实也会影响周围的无线信号，通过捕获这些信息能够推理这些人的生理信号。通过分析和理解这些生理信号，也可以有很多别的医疗方面的应用，比如可以做睡眠监测。赵明民首先提到了传统的睡眠监测是什么样的方法，并用视频展示了在麻省总医院的一段经历。他在睡眠实验室带上做睡眠检测所使用的所有的硬件和所有的传感器，身后的数据线多到能绑成一个辫子，头上、脸、面部、脖子上都贴满了各式各样的传感器。而如果使用无线信号的睡眠监测方法，用户或者病人可以很舒服的睡在自己的床上，不需要佩戴任何的传感器。无线信号设备会传输信号，然后接受它的反射，这个时候神经网络系统就能根据这些反射来推断出这个人的睡眠阶段，是清醒的还是浅度睡眠，或者是深度睡眠，或者是在频繁眼动阶段。

最后，赵明民简单介绍了这个研究方向未来的一些工作。对于自身而言，赵明民很感兴趣的是如何使用这些无线感知的技术来进一步改变或者是提升现在医疗系统的效率。现在很多的疾病，特别是一些慢性疾病，缺少很有效的检测和观测方法的，比如抑郁症、阿尔兹海默症以及帕金森综合症等等。如果能够把这样一些非侵入式也非穿戴式的设备放在家里面，就可以很好的检测和监测一些拥有慢性疾病的老人的生活状况，这也能够提前感知或者是提前检测到他们生活中的一些异样。同时对于现在世界各国影响比较严重的肺炎，无线信号检测也有它的作用，就像前面提到的无线信号能够检测一个人的生理信号一样，一个人的呼吸和心跳是现在检测肺炎，或者是观测一个病人肺部感染变化的很重要的指标。当一个人的肺部感染之后，他的呼吸频率和呼吸模式都会发生很明显的变化，现有的这些无线信号感知技术，不仅能够很方便的识别这个人的生理特征，而且能够帮助医生做到非接触式的衡量一个病人的体征等等。

赵明民在讲座结束时还进行了在线答疑。

获取赵明民报告原文，请在后台回复“20200805”

AI未来说*青年学术论坛