微信多媒体团队访谈：音视频开发的学习、微信的音视频技术和挑战等

内容概述

腾讯多媒体内核中心高级研究员时永方接受了LiveVideoStack的邮件采访，谈及了个人成长中的关键时刻，学习多媒体开发的三点核心，以及在5G和高清时代下，微信多媒体团队面临的挑战。

Q：时永方你好，能否简要介绍下自己，包括目前的主要工作及关注领域？

时永方：我是来自腾讯微信多媒体内核中心的时永方，本科毕业于南京大学，研究生毕业于香港科技大学MTREC实验室，研究生毕业之后加入微信，从事微信视频通话的相关技术研发，目前的工作主要在提升微信视频通话的QoS/QoE（Quality of Experience），包括清晰度、流畅度提升，流量控制，抗丢包策略，多编码器协同编码等，近期也有关注运用深度学习方法进行在视频、图片主观质量的提升。

Q：是哪些原因或机缘巧合让你选择腾讯，并专注在多媒体技术？

时永方：我进腾讯应该说是一个巧合，当时我在香港科大还有一年MPhil毕业，还在准备ICME会议的paper，没有全力找工作。我的一个博士师兄去微信面试了，当时是小龙给他面试的，小龙给他展示了刚推出不久的微信音视频通话功能（2012年微信4.2版本）。我通过师兄得知微信在招视频编解码相关的人才，在体验过微信清爽的视频聊天之后有些心动。师兄拿到了offer，但最终因为个人原因去了美国高通，我“捡漏”通过师兄投递了简历，很幸运通过了面试来到了微信事业群的前身广州研发部。

Q：多媒体技术涉及许多基础科学，需要足够的耐心潜心研究，初学者入门不易。您对此有哪些体会或经验分享？

时永方：多媒体技术确实涉及很多基础学科，如高等数学，数字信号处理，通信原理，信息论等。

通过我本人的学习经历，有三点建议：

第一，初学者需要掌握数字信号处理及信息论等基本知识，这些知识是我们进入这个行业的敲门砖；
第二，需要了解技术的演进过程以及解决的“痛点”。具体到视频编解码上，我建议初学者需要了解视频编码标准的演进过程，从早期的H .261/263，MPEG1/2/4，到现在的H.264/H.265/H.266，熟悉每一项标准的差异点，以及在技术进步过程中想解决的问题，这样不仅知其然还能知其所以然；
第三，最后一点，知行合一！通过对各标准的测试模型或开源软件的代码阅读，加深对技术细节的理解，通过部分模块的优化，提高自身的实践能力。如果能做到这三点，恭喜你就已经是内行人了。
私信扣1，免费分享2022最新最全学习提升资料包,资料内容包括《Andoird音视频开发必备手册+音视频最新学习视频+大厂面试真题+2022最新学习路线图》

[H2Head]Q：能否推荐一些学习多媒体开发的书籍或资料？[/H2]

时永方：基础知识方面推荐岗萨雷斯的《数字信号处理》，东南大学的《信息论与编码》，编码基础方面推荐Wiley的《THE H.264 ADVANCED VIDEO COMPRESSION STANDARD》或国内毕厚杰老师的《新一代视频压缩编码标准H.264》，最新的标准可以看相关的标准文档。

Q：过去这五年是微信经历了快速发展，能否介绍下你所做的对微信音视频的优化与改进？

时永方：过去五年，微信取得了高速发展，成为一款“国民APP”，我所在的微信多媒体中心的音视频通话业务也取得了极大的发展。

我的优化工作主要在微信视频通话的QoE提升上，主要分以下几个方面。

1）“三高”（高帧率、高分辨率、高质量）优化：

高帧率、高分辨率优化简单来说就是提高视频通话的帧率和分辨率。为了解决各终端性能的“长尾”效应，我们对各终端的性能进行统一评估，根据不同的能力来决定其最高编码帧率和分辨率。另外，针对软编码的性能瓶颈（速度、发热），我们对高分辨率视频的编码采用硬件加速，以此提高视频通话的高清体验。为了提高视频的主观质量，我们还做了编码器的压缩效率和视觉质量优化，减轻低码率时的块效应。

2）流量控制优化：

为了能尽可能准确描述信道的状态，除了一般流控系统里用到的丢包和延时参数外，我们还估计端到端的可用带宽，根据这些信息来综合调节，减少超带宽的概率。

3）弱网优化：

在流畅度保证方面，除了传统的加FEC冗余数据包保护外，我们还进行了多方面的优化：我们改进了编码器的参考帧结构，降低某帧丢失导致的误差传播概率，我们还优化了FEC冗余数据包保护策略，将冗余数据包优先分配给重要的帧；对于高丢包但RTT较低的网络，我们会提前判断是否需要I帧请求，降低卡顿时长。

Q：随着手机更新换代，硬件性能不断提升，对于微信音视频的QoS/QoE是不是更容易保障了？在网络条件不断改进，终端硬件性能提升的情况下，对底层技术的研发是不是不再重要呢？

时永方：硬件性能的提升，确实有助于我们提高微信视频的QoS/QoE，只有硬件性能足够，我们才有可能进行更复杂、更高效率的视频编码，提升分辨率，用复杂度trade-off一些压缩效率上的提升。但其实，从整个系统来看，硬件终端只是整个VOIP端到端系统里起点和终点，我们面临最大的不确定性在网络途中。我们的IP网络是一个best-effort的数据网络，是一个大黑盒，突发丢包、随机丢包、抖动这些未知因素会极大地影响我们的视频通话体验，QoS/QoE保障仍然是一个艰巨的任务。

底层技术研发的重要性是不言而喻的，我们对技术的极致追求也是持续的。我们都知道，网络再好也有“抽风”的时候，手机再强但仍有用户使用较差的手机。对微信团队而言，我们有强烈的用户导向，我们重视每一个用户的反馈，重视每一个异常的场景。如果说现在的微信视频通话已经解决了80%场景下的QoS/QoE问题，剩下的20%仍需要我们不断地一点点打磨、优化。

[H2]Q：接下来微信多媒体服务的挑战还有哪些？改进和研发重点方向是什么？

时永方：随着业务的扩大，我们的带宽成本在不断地提升，为了控制成本，同时又能保证用户的视频质量体验，我们还要不断地提升我们编码器的编码效率，优化视频的主观质量；随着腾讯“连接一切”战略的深入，可以预见，以后将会有各式各样的设备接入微信的多媒体服务，如何给众多异构设备提供高标准的服务，无论对我们的WAVE引擎（Wechat Audio & Video Engine）还是后台，都有相当的挑战。为此，我们不仅要提高WAVE引擎的通用性，还要提升后台的处理能力和稳定性。

Q：能否介绍下在微信上的软/硬件协同编码，以及多Codec协同的业务场景和实践？

时永方：上面也提到了，我们在视频通话上根据不同分辨率、不同的网络特点、设备性能选择合适的软/硬件编码器协同工作。简要来说，在网络较差、分辨率较低时，我们采用自研软件编码器，具有更强的传输适应性，在较差网络中降低卡顿；在网络较好、硬件编码性能良好的设备上进行高分辨率视频编码时，我们采用硬件编码器编码，可以降低高清视频编码的延时以及减少手机的发热。

Q：在5G、4K时代到来之后，对多媒体技术带来哪些挑战？对于开发而言，有哪些机遇？

时永方：5G、4K高清时代的到来会对我们带来很多挑战。

首先：最直观的是，视频类业务量的激增和用户对视频质量的要求不断提高，对我们而言意味着视频带宽成本更大，因此，我们需要提高压缩效率；

第二：对于移动设备而言，运算更加复杂更加耗时，因此我们要优化编解码器，提高编解码速度；

第三：可以预见，路越修越宽，车越开越多，网络拥塞状态并不一定会随着5G的使用而彻底好转，不确定性仍然很多，我们的流控响应的动态范围还要继续扩大以适应新的网络特性。

新的时代孕育新的机会，我们期待在5G、4K到来时展现我们的硬实力，包括编解码器压缩效率、速度，智能流控等。

Q：在今年的CVPR大会上，看到中国来自国内的AI相关的企业。参与此次CVPR，你是听众身份参会吗，还是有其他任务？参与大会观察到哪些现象，有何体会？

时永方：我主要是去学习最新的学术成果，了解最新的工业界关注方向。这次参会，我看到自动驾驶、AI医疗很火热，很多国内国外的大公司都有相应的人工智能实验室，在顶会上吸引顶尖的学生、研究人员。

我印象最深的是，AI教主——NVIDIA CEO黄仁勋亲自赶到会场，和众多使用NVIDIA芯片研究自动驾驶、AI医疗解决方案的小创企业交流，了解他们的实际需求以及业务发展状况。

另外，大会的一个tutorial中提到，一个PhD学生用深度学习只花了1周时间就可以媲美资深天体物理学家几十年搜索到的宇宙暗物质。对我们多媒体技术而言，如果能借助人工智能提升我们在QoE提升方面的一些主观的、人为的决策也是极好的。

内容概述

猜你喜欢

目录

热门文章