肢体语言识别系统OpenPose问世，它甚至能明白你的表情

4月23日，卡内基梅隆大学感知计算实验室将其打造的OpenPose——一套可以读懂人类肢体语言的库放在了GitHub上，并于6月和7月相继开源了核心的面部和手部识别源代码。源码网址:https://github.com/CMU-Perceptual-Computing-Lab/openpose

据放在GitHub上的资料显示，OpenPose是世界上第一个实时多人关键点检测和多线程的C++库，归属于卡内基梅隆大学6月刚启动，旨在推进人工智能研究和教育的CMU AI计划。任何人，只要不涉及商业用途都可以用它来构建自己的肢体跟踪系统。

OpenPose整个项目的开发者有6人，分别是来自机器人学院的助理研究员Ginés Hidalgo Martínez、Zhe Cao、Shih-En Wei，博士生Tomas Simon、Hanbyul Joo以及提供指导意见的副教授Yaser Sheikh。而OpenPose实际就是他们在做实时多人2D姿态估计、动态3D重建与手部关键点检测等多项计算机视觉项目的成果。

此外，他们还开发有面部跟踪库IntraFace和形似冰屋的大型多视点系统Panoptic Studio，这些也被用到OpenPose的开发中，以拓展其功能，因而，现在的OpenPose不仅可以跟踪人体躯干和四肢，连面部动作和单个手指都可以被捕捉到。

识别的大致过程是，首先由摄像机捕获到2D图像，之后OpenPose中的关键点检测器会识别并标记出身体特点的部位，帮助身体跟踪算法了解不同角度下每个姿势的表现，并以3D彩色火柴人的形式呈现出来。识别的过程与摄像系统和计算能力息息相关，因而在由500多台摄像机构成的Panoptic Studio中，OpenPose的性能十分夸张，可以实时检测130个人体关键点，而放到个人计算机上运行，追踪的人越多，则计算与渲染的时间则越长，耗时一百多个小时也不是没有可能，因而OpenPose才要配置多线程模块来加速处理。

总的来说，OpenPose相当于以前体感游戏所应用的身体追踪技术的升级版，但与微软Kinect追踪20个关键点相比，OpenPose要细致得多，同一个动作，Kinect感知到一个人在抬手，而OpenPose则可以观察到这个人实际是用手指指向了某样东西。面部跟踪方面，Kinect里整个头部只是一个点，而OpenPose里眉、眼、鼻、口能被数十个关键点描绘出来，别说肢体语言，就是表情都能被识别。

用开发者Yaser Sheikh自己的话来讲，OpenPose本质是是开辟了一种新的人机交互方式。相比于键盘鼠标而言，人用肢体动作和面部表情能表达的内容比键盘鼠标要丰富得多，比如目前的体感设备就无法区别，面前这个手舞足蹈的人，究竟是兴奋呢，还是因愤怒而发泄。

而当OpenPose被运用到了时兴的人工智能与VR/AR领域，即便脱离了键鼠，人与计算机的沟通也不会存在障碍，反而更贴近现实之中人的沟通、更自然一点，可以把死的设备当成一个能大致了解你情绪的对象，进而，在如康复治疗、社交等领域，人工智能就能结合当时的情况揣摩用户心理，提供更个性化的方案。或者，当它“看到”一群人都在等红灯，突然一个人朝着马路对面走过去，这时就能立即发出警告，这也是多人追踪更广阔的应用之一。

目前，OpenPose的开源已经吸引了数千用户参与完善，而包括汽车集团在内的20多个企业也对这个项目产生了兴趣。感知计算实验室正在制定软件下载和商业许可证，其很快将被应用于现实生产和生活中。

肢体语言识别系统OpenPose问世，它甚至能明白你的表情

猜你喜欢