YouTube 故事中的视听语音增强

尽管在提高智能手机摄像头拍摄的视频质量方面投入了大量精力，但视频中的音频质量往往被忽视。例如，视频中有多人说话或背景噪音高的主题的语音可能会混乱、失真或难以理解。为了解决这个问题，两年前我们推出了Look to Listen，这是一种机器学习 (ML) 技术，它使用视觉和音频提示来隔离视频主题的语音。通过在大量在线视频上训练模型，我们能够捕获语音和视觉信号（例如嘴巴运动和面部表情）之间的相关性，然后可用于将视频中的一个人的语音与另一个人的语音分开，或将语音与背景声音分开。我们展示了这项技术不仅在语音分离和增强方面取得了最先进的结果（比纯音频模型显着提高了 1.5dB），而且特别是当有多个音频模型时，可以改善纯音频处理的结果。人们在说话，因为视频中的视觉提示有助于确定谁在说什么。

现在，我们很高兴通过YouTube Stories（iOS 版）中的新视听语音增强功能向用户提供 Look to Listen 技术，让创作者可以通过自动增强声音和减少背景噪音来拍摄更好的自拍视频。将这项技术交到用户手中并非易事。在过去的一年里，我们与用户密切合作，了解他们希望如何使用这样的功能，在什么场景下，以及他们希望在他们的视频中拥有什么样的语音和背景声音的平衡。我们高度优化的展望聆听模式，使其在移动设备上高效运行，整体减少了运行时间从10 X实时在桌面上时，我们的纸出来了，0.5 X手机上的实时性能。我们还对该技术进行了广泛的测试，以验证它在不同的录音条件下以及对于不同外表和声音的人的表现是否一致。

从研究到产品

优化寻找聆听以在移动设备上实现快速而稳健的操作要求我们克服许多挑战。首先，所有处理都需要在客户端应用程序中在设备上完成，以最大限度地减少处理时间并保护用户的隐私；不会将音频或视频信息发送到服务器进行处理。此外，除了消耗资源的视频录制本身之外，该模型还需要与YouTube 应用中使用的其他 ML 算法共存。最后，算法需要在设备上快速高效地运行，同时最大限度地减少电池消耗。

“寻找聆听”管道的第一步是从视频流中分离出包含说话者面部的缩略图。通过利用MediaPipe BlazeFace和 GPU 加速推理，现在可以在几毫秒内执行此步骤。然后，我们将单独处理每个缩略图的模型部分切换到重量更轻的MobileNet（v2) 架构，输出为语音增强目的学习的视觉特征，以每帧 10 毫秒从人脸缩略图中提取。由于嵌入视觉特征的计算时间很短，因此可以在视频仍在录制时完成。这避免了将帧保留在内存中以供进一步处理的需要，从而减少整体内存占用。然后，在视频完成录制后，将音频和计算出的视觉特征流式传输到视听语音分离模型，该模型生成隔离和增强的语音。

我们通过用更少的过滤器用可分离的卷积（频率维度中的 1D，然后是时间维度中的 1D）替换“常规”2D 卷积来减少视听模型中的参数总数。然后，我们使用TensorFlow Lite进一步优化了模型——一组工具，可以在移动设备上以低延迟和小二进制大小运行 TensorFlow 模型。最后，我们在Learn2Compress框架内重新实现了模型，以利用内置的量化训练和QRNN支持。

file

这些优化和改进从10减少的运行时间X使用的原始制剂实时桌面上寻找到听，至0.5 X实时性能仅使用iPhone CPU; 并将模型大小从 120MB 减小到现在的 6MB，这使得部署更加容易。由于 YouTube Stories 视频很短（限制为 15 秒），因此在录制完成后的几秒钟内即可获得视频处理的结果。

最后，为了避免处理带有干净语音的视频（以避免不必要的计算），我们首先仅在视频的前两秒运行我们的模型，然后将语音增强输出与原始输入音频进行比较。如果有足够的差异（意味着模型清理了语音），那么我们会在视频的其余部分增强语音。

研究用户需求

Look to Listen 的早期版本旨在将语音与背景噪音完全隔离。在与 YouTube 一起进行的一项用户研究中，我们发现用户更喜欢保留一些背景声音以提供上下文并保留一些场景的一般氛围。基于此用户研究，我们采用原始音频和我们生成的干净语音通道的线性组合：output_audio = 0.1 x original_audio + 0.9 x 语音。下面的视频展示了干净的语音结合场景中不同级别的背景声音（10% 的背景是我们在实践中使用的平衡）。

公平性分析

另一个重要的要求是模型要公平和包容。它必须能够处理不同类型的声音、语言和口音，以及不同的视觉外观。为此，我们进行了一系列测试，探索模型在各种视觉和语音/听觉属性方面的性能：说话者的年龄、肤色、口语、语音音调、说话者面部的可见性（视频的百分比）演讲者在画面中）、整个视频中的头部姿势、面部毛发、眼镜的存在以及（输入）视频中的背景噪音水平。

对于上述每个视觉/听觉属性，我们在评估集（与训练集分开）的片段上运行我们的模型，并测量语音增强准确性，根据不同的属性值进行细分。一些属性的结果总结在下面的图中。图中的每个数据点代表符合标准的数百个（在大多数情况下为数千个）视频。

扫描二维码关注公众号，回复： 13166680 查看本文章

file

使用 Feature

有资格创建 YouTube Stories 的 YouTube 创作者可以在 iOS 上录制视频，然后从音量控制编辑工具中选择“增强演讲”。这将立即将语音增强应用于音轨，并将循环播放增强的语音。然后可以多次打开和关闭该功能，以将增强后的语音与原始音频进行比较。

在 YouTube 上推出这项新功能的同时，我们也在探索该技术的其他场所。今年晚些时候将推出更多内容——敬请期待！

更新说明：优先更新博客，后更新微信公众号“雨夜的博客”，之后才会陆续分发到各个平台，如果先提前了解更多，请关注“雨夜的博客”。

博客来源：雨夜的博客