为视频会议开发实时、自动的手语检测

每个人都应该可以使用视频会议，包括使用手语进行交流的用户。但是，由于大多数视频会议应用程序的过渡窗口都集中在大声说话的人身上，因此签名者很难“发言”，因此他们可以轻松有效地进行交流。在视频会议中启用实时手语检测具有挑战性，因为应用程序需要使用大量视频源作为输入来执行分类，这使得任务计算量很大。在某种程度上，由于这些挑战，手语检测的研究非常有限。

在“实时注册使用语言检测人体姿势估计”，在提出SLRTP2020和全世界展示ECCV2020，我们提出了一个实时手语检测模型，并证明它是如何被用来提供视频会议系统的机制来识别人以活动发言人的身份签名。

我们的模型

为了为各种视频会议应用程序提供实时工作解决方案，我们需要设计一个轻量级的模型，该模型易于“即插即用”。之前在客户端集成视频会议应用程序模型的尝试证明了消耗更少 CPU 周期的轻量级模型的重要性，以最大限度地减少对通话质量的影响。为了降低输入维度，我们将模型所需的信息与视频隔离，以便对每一帧进行分类。

由于手语涉及用户的身体和手部，我们首先运行姿势估计模型PoseNet。这大大减少了从整个高清图像到用户身体上的一小部分地标的输入，包括眼睛、鼻子、肩膀、手等。我们使用这些地标来计算帧到帧的光流，从而量化供模型使用的用户动作，而不保留用户特定的信息。每个姿势都根据人的肩宽进行标准化，以确保模型在距离相机一定距离的范围内照顾到签名的人。然后，在传递给模型之前，光流通过视频的帧速率进行归一化。

为了测试这种方法，我们使用了德语手语语料库(DGS)，其中包含人们签名的长视频，并包含指示签名发生在哪些帧中的跨度注释。作为一个简单的基线，我们训练了一个线性回归模型来预测一个人何时使用光流数据进行签名。该基线达到了约 80% 的准确度，每帧仅使用约 3 微秒（0.000003 秒）的处理时间。通过将前 50 帧的光流作为线性模型的上下文，它能够达到 83.4%。

为了概括上下文的使用，我们使用了长短期记忆(LSTM) 架构，其中包含之前时间步长的记忆，但没有回溯。使用单层 LSTM，然后是线性层，该模型的准确率高达 91.5%，每帧处理时间为 3.5 毫秒（0.0035 秒）。

概念证明

一旦我们有了一个有效的手语检测模型，我们就需要设计一种方法来使用它来触发视频会议应用程序中的主动发言者功能。我们开发了一个轻量级、实时、手语检测网络演示，它连接到各种视频会议应用程序，并可以在用户签名时将其设置为“发言人”。此演示利用PoseNet快速人体姿态估计和使用tf.js在浏览器中运行的手语检测模型，使其能够实时可靠地工作。

当手语检测模型确定用户正在签名时，它会通过虚拟音频电缆传递超声波音频，任何视频会议应用程序都可以检测到，就好像签名用户在“说话”一样。音频以 20kHz 的频率传输，这通常超出人类的听觉范围。因为视频会议应用程序通常将音频“音量”检测为说话而不是仅检测语音，这使应用程序误认为用户正在说话。

您可以立即试用我们的实验演示！默认情况下，该演示充当手语检测器。该训练码和模型，以及在网络演示源代码可以在GitHub上。

演示

在下面的视频中，我们演示了如何使用模型。请注意左上角的黄色图表，它反映了模型在检测到该活动确实是手语方面的信心。当用户签名时，图表值上升到接近 100，当她停止签名时，它下降到零。这个过程是实时发生的，每秒 30 帧，这是所用相机的最大帧速率。

用户反馈

为了更好地了解演示在实践中的效果，我们进行了一项用户体验研究，参与者被要求在视频会议期间使用我们的实验演示，并像往常一样通过手语进行交流。他们还被要求互相签名，并在说话的参与者身上测试说话者的切换行为。参与者积极回应，手语被检测并被视为可听语音，演示成功识别了签名与会者并触发了会议系统的音频表图标以将焦点吸引到签名与会者。

结论

我们相信每个人都应该可以访问视频会议应用程序，并希望这项工作是朝着这个方向迈出的有意义的一步。我们已经展示了如何利用我们的模型使签名者能够更方便地使用视频会议。

更新说明：优先更新网站“雨夜的博客”，后更新微信公众号“雨夜的博客”，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。

博客来源：雨夜的博客