音视频技术开发周刊 | 138

每周一期，纵览音视频技术领域的干货和新闻投稿：[email protected]。

架构

用FFmpeg搭建基于CNN的视频分析方案

FFmpeg作为一个集录制、转换、音/视频编码解码功能为一体的开源框架，自然也需要考虑怎样去和当下流行的视频分析技术融合。本文来自英特尔网络平台部软件工程师谢林在LiveVideoStack线上分享中的演讲，详细解析了如何用FFmpeg搭建基于CNN的视频分析方案。

https://mp.weixin.qq.com/s/mDOsse-1Hs61cSVNZjsVdQ

使用 KITE 进行 WebRTC 自动化测试

KITE 整合了 Selenium 和 Allure。Selenium 是一个开源的浏览器自动化框架，支持集群化（grids），不同的节点可以运行不同的操作系统类型/版本、浏览器类型/版本，这样我们就可以在各种操作系统和浏览器的组合下自动化测试 Web 应用了。Allure 则是一个开源的测试报告工具，用来展示测试结果。

https://blog.piasy.com/2020/03/28/KITE/index.html

iOS音视频（音视频的编解码）

利用VideoToolbox和AudioToolbox去实现音视频的编解码。研究的视频流格式是H264，音频流格式是AAC。

https://juejin.im/post/5e7c764fe51d455c3a0ae95d#heading-1

扫描二维码关注公众号，回复： 11197943 查看本文章

OWT Server 集群部署和扩缩容

一转眼 OWT Server 快速入门已经快一年了，最近终于遇到了单台机器无法支撑用户规模的情况，原本我乐观地认为 OWT 自动扩缩容是一件很简单的事情，但实际上这事一点也不简单。

https://blog.piasy.com/2020/04/01/OWT-Server-Cluster-Scaling/index.html?from=groupmessage

传输网络

腾讯视频P2P带宽节省率持续提升之路

要想提升P2P带宽节省率，最直接的方式当然是压缩CDN带宽，但简单粗暴的减少CDN下载势必会带来播放体验问题。腾讯视频数据传输研发高级工程师严华梁在LiveVideoStackCon 2019深圳的演讲中详细介绍了腾讯视频针对P2P带宽节省的最新探索与实践。

https://mp.weixin.qq.com/s/gJBPwzaX4xJWy4av-_tJgw

DVB-I服务的编码和打包

本次网络研讨会探讨了关于DVB-I规范为线性电视服务提供的以Internet为中心的解决方案。尽管DVB-I服务列表可以参考通过宽带和/或广播提供的服务，但该规范的主要开发目的是为宽带观众带来传统数字电视的用户友好性和鲁棒性。该网络研讨会考虑了线性电视内容的宽带传输的关键技术。

https://mp.weixin.qq.com/s/pQ9Ekt0FSmV1fvotfLnnqQ

编解码

Xilinx FPGA，“加速”视频质量提升

本文内容来自Xilinx 张吉帅在LiveVideoStackCon2019深圳站上的精彩分享，他将重点讨论异构计算中非常具有潜力的一部分 —— FPGA，并详细介绍赛灵思以及其技术生态合作伙伴在有关视频加速，图片转码等方面的解决方案。

https://mp.weixin.qq.com/s/9LJUD_4D5sSx2Vr_Q0INEA

探究一下iSize的编码预处理魔法

iSize BitSave是一种视频预处理技术，旨在提高制作的视频的质量。本文将从摘要开始，然后进行深入的探讨。

https://mp.weixin.qq.com/s/PyOZi3ElflunGqYupwyVDg

视频技术

金山“云”上音乐节 —— 一文带你看懂如何支持一场线上演出

疫情当下，线上演艺活动受到巨大冲击，娱乐行业展开一场自救大行动，把演出从线下搬到了线上。

转到线上的演出目前主要是以直播形式出现在各大直播平台，比如最近迅速蹿火的One Third（OT）云蹦迪、“宅草莓不是音乐节”、”SNH48 云公演”、音乐人的“宅现场”、“云相声”等。丰富的在线演艺内容让无法去现场的观众感到欣喜和安慰，同时也让重创中的演艺行业依然保持着活力，并且催生出新的希望。

https://mp.weixin.qq.com/s/P5r71NNnv26sIkjae-78Iw

解决FFmpeg获取aac音频文件duration不准

这个问题是这样产生的，一同事反应会随机出现ijk获取到的aac文件的duration不准，发来一看，确实不准，在AE或者系统mediaplayer中得到的都是8.4秒（准确时间是MtkAACExtractor: ADTS: duration = 8448000 us），ijk得到的是9.3秒，在播放的时候，在8秒的时候流就结束了，放到编译的ffmpeg中，一看也是9.3秒。

https://juejin.im/post/5e7ec5706fb9a03c6568cf5b

5G+AI时代的高效视频处理

当前互联网上大于75%的流量都来自于视频，据估计5G时代视频流量更是高达90%以上。如何压缩、传输以及分析视频内容成为5G部署及大规模应用的关键。虽然传统的5G部署也有一定市场，但经过AI加持的智能终端/边缘/云计算可以为5G带来更大的收益及降低其部署成本。本次报告主要探索了在硬件层面如何利用传统方法及深度学习方法对视频进行压缩和分析，以及如何在5G信道中传输压缩后的码流。

https://mp.weixin.qq.com/s/3w5IDMOTS_619wC0OEU_ng

Around 推出了浮动圆形头像视频多人聊天应用

Around 推出了其新的视频聊天软件，该软件可以将与会人员缩小为漂浮在屏幕上的圆圈，从而为其他应用程序腾出空间。Around是专为笔记本电脑设计的，可使用自动缩放和降噪功能使面部和声音保持清晰。最多可以让15个人从自己的笔记本电脑拨打电话而不会产生回声，甚至可以彼此相邻，而不必围着一台计算机或堆放在一个大屏幕会议室中。

https://techcrunch.com/2020/03/18/around-video-calling/

Decode the week

Pornhub采用Mediasorp用于WebRTC SFU、Zoom 向FB回传数据

https://mp.weixin.qq.com/s/fLFz_I9Gsf6kSWKha4GJUA

HDR视频中的胶片颗粒噪声和扫描仪噪声

本文是来自SMPTE2019的演讲，演讲者是Michael D. Smith。演讲的主要内容是：HDR视频中的胶片颗粒噪声和扫描仪噪声。

https://mp.weixin.qq.com/s/jKjNXS09S6n_AW3XyW7N1Q

日本的4K/8K UHDTV 卫星广播系统

本文来自SMPTE2019的演讲，演讲者是来自NHK的Katsuya Hayashi，演讲题目是“Development of New 4K_8K UHDTV Satellite Broadcasting System in Japan”。

https://mp.weixin.qq.com/s/2Pvu6_DQubbAHaO0CQxG8g

AI智能

你今天怎么这么好看——基于深度学习的大型现场实时美颜

美颜是当下直播甚至是所有形式对外展示的一个必备条件。手机端的美颜就像私人化妆师，能够帮助我们实现各种心仪的效果。而大型娱乐节目一般都是提前进行录制，然后进行后期制作，在视频质量和美颜方向也会在后期也会进行诸多的处理。但对于实时直播的节目和晚会，没有后期制作的存在。这种大型娱乐现场（和手机端前的直播相比）的场景非常复杂，灯光、背景、机位、多人等都对传统的基于人脸检测和跟踪的美颜提出了巨大挑战。

https://mp.weixin.qq.com/s/hL5nEQs2TDgTeW3j1wQ1EA

AI对广播和OTT内容分发中视频压缩的改善

本文来自SMPTE2019的演讲，演讲者是来自harmonic的高级产品销售经理Jean-Louis Diascorn。演讲主题是AI技术对广播和OTT内容分发中视频压缩的改善。

https://mp.weixin.qq.com/s/iIlodP314lAhYMQTWacRzw

低耗时、高精度，微软提出基于半监督学习的神经网络结构搜索算法 SemiNAS

近年来，神经网络结构搜索（Neural Architecture Search, NAS）取得了较大的突破，但仍然面临搜索耗时及搜索结果不稳定的挑战。为此，微软亚洲研究院机器学习组提出了基于半监督学习的神经网络结构搜索算法 SemiNAS ，能在相同的搜索耗时下提高搜索精度，以及在相同的搜索精度下减少搜索耗时。SemiNAS 可在 ImageNet（mobile setting）上达到23.5%的 top-1 错误率和6.8%的 top-5 错误率。同时，SemiNAS 第一次将神经网络结构搜索引入文本到语音合成任务（Text to Speech, TTS）上，在低资源和鲁棒性两个场景下取得了效果提升。

https://mp.weixin.qq.com/s/V9OL7thhOk7m75g86WLRZA

图像

抖音包大小优化-资源优化

随着业务的快速迭代，抖音 Android 端的包大小爆发式增长。包大小直接影响到下载转化率、推广成本、运行内存和安装时间等因素，因此对 apk 进行瘦身是一件很有必要且收益很大的事情。apk 主要由 dex、resource、asserts、native libraries 和 meta-data 组成，针对每一部分，都可以专项去做包大小优化。

抖音 Android 端经过一段时间努力，包大小优化已经取得了阶段性的成果。目前仍在持续的优化中。

https://mp.weixin.qq.com/s/xxrvRKXXDquJaezjrOlLwA

HDR Imaging--Digital Overlap

Digital Overlap是目前比较流行的sensor HDR 技术，在监控与车载相机等领域的应用非常广泛。Sony于2012年在监控相机市场首先推出基于DOL（digital overlap） HDR技术的图像传感器，之后OV与Onsemi也都推出了与DOL类似的HDR技术的图像传感器，而且应用领域不局限于监控这种传统HDR imaging的市场，而且扩展到了Automotive camera市场。现在Sony已经推出了第二代支持虚拟通道DOL HDR技术的sensor。

https://mp.weixin.qq.com/s/NuJYejYJ1kKdD2pRo5Wxlw

资源推荐

基于轮廓调整的SOTA实例分割方法，速度达32.3fps

实例分割是许多计算机视觉任务中的重要手段，目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法。受snake算法和Curve-GCN的启发，论文采用基于轮廓的逐步调整策略，提出了Deep snake算法进行实时实例分割，该算法将初始轮廓逐渐优化为目标的边界，达到很好的性能且依然保持很高的实时性(32.3fps) 。

论文地址：https://arxiv.org/abs/2001.01629

论文代码：https://github.com/zju3dv/snake/

点击“阅读原文”可查看更多详细信息，请大家科学上网。

LiveVideoStack_

原创文章 505 获赞 369 访问量 61万+

关注他的留言板

音视频技术开发周刊 | 138

猜你喜欢