音视频技术开发周刊 82期

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第82期内容，祝您阅读愉快。

架构

基于Licode的WebRTC全球分布式架构

随着在线教育行业的兴起，许多人把目光投向了国外市场，而如何搭建全球化的音视频网络就成为了其中的关键问题。百家云研发工程师陈聪详细介绍了如何利用Licode 开源服务器搭建全球分布式架构以解决常见的教育场景的问题。本文来自陈聪在LiveVideoStackCon 2018上的演讲，由LiveVideoStack整理而成。

实时音视频通信（RTC）和低延时直播调研

调研的数据很多都是一线最新的数据，是各大云厂商及大客户正在做、准备做或者已经完成的的项目，各大公司架构设计部分尽可能给大家展示各个公司最新的架构，但是由于资料有限，数据更新不及时，可能会有偏差。

ffplayer 原理、架构及代码分析——音视频同步与帧率控制

音视频同步是一个播放器要处理的基本问题，音视频同步的好坏直接影响到播放效果。解码后的音频片段和视频片段，都分别带有 pts 时间戳信息。回放时需要做的，就是尽量保证 apts（音频时间戳）和 vpts（视频时间戳），之间的差值是最小的。

播放器技术分享（5）：延时优化

本篇是系列文章的第五篇，主要聊一聊如何优化播放延时。由于播放的延时，是需要从 “视频的生产 -> 分发 -> 播放” 各个环节联合优化的，并不是单一靠播放器就可以搞定的，因此，本文会更多地介绍一些整体上的延时原因和优化思路，而不是单讲播放器本身如何解决延时问题。

音频/视频技术

带着问题，再读ijkplayer源码

问题：主流程上的区别；缓冲区的设计；内存管理的逻辑；音视频播放方式；音视频同步；seek的问题：缓冲区flush、播放时间显示、k帧间距大时定位不准问题…

计算机视觉如何“看”体育比赛

从简单的运动视频分类，到识别体育视频中的比赛事件，再到利用视频分析技术自动生成比赛解说，计算机视觉在体育赛事分析中已经有了长足的发展，并且在这方面的应用和研究领域还在不断扩宽。

基于递阶递归神经网络的音频超分辨率

本工作提出了一种用于音频超分辨率的递归模型，该模型的任务是推断低分辨率录音的高分辨率版本。鉴于缺乏基线方法和最合适的深度学习方法的模糊性，我们将重点放在递归神经网络上。我们提出了一种分层递归神经网络(Hrnn)，它使用基于回归的损失和感知损失相结合的损失函数进行训练。

编解码

新一代视频编码标准：VVC、AVS3

本文来自北京大学信息科学技术学院教授马思伟在LiveVideoStackCon 2018大会上的演讲，详细介绍了最新一代VVC和AVS3视频编码标准进展，包括关键技术特色以及未来的应用展望。

姜健：VP9可适性视频编码（SVC）新特性

与VP8相比，VP9进行了大量的设计改进以尽可能的获得更高的视频编码质量。Google软件工程师姜健详细介绍了VP9可适性视频编码（SVC）中多种新功能的实现与相应API。本文来自姜健在LiveVideoStack 线上交流分享，并由LiveVideoStack整理而成。

百度媒体云智能编码技术实践

随着视频行业的蓬勃发展，提升视频质量，降低带宽成本成为各平台的首要挑战目标。本文来自百度云资深工程师邢怀飞在LiveVideoStackCon 2018大会的精彩分享。在分享中其对百度云智能编码技术进行了深入介绍，并结合具体实践进一步介绍AI技术在云转码中的应用探索。

MPEG视频编码增强方案初探

MPEG的初步方案是开发由两个流定义的数据流结构，一个是可由硬件解码器解码的基本流，另一个用于更高处理能力的软件处理的增强流。

WebRTC Native 源码导读（十五）：RTP H.264 封装与解封装

之前我在为 janus-pp-rec 增加视频旋正功能一文中简单介绍了一点 RTP 协议的内容，重点关注的是视频方向的 RTP header extension，这次我们更深入的了解一下 RTP 协议的内容，看看 H.264 视频数据是如何封装和解封装的。

Android音视频(四)MediaCodec编解码AAC

MediaCodec类可以访问底层媒体编解码框架（StageFright 或 OpenMAX），即编解码组件，它是Android基本的多媒体支持基础架构的一部分，通常和MediaExtractor、MediaSync、MediaMuxer、MediaCrypto、MediaDrm、Image、Surface和AudioTrack一起使用。

AI智能

Pixel 3 的最佳照片功能

最佳照片是最近随 Pixel 3 推出的一项新功能，可以在您按下快门按钮时自动帮您精准捕捉珍贵瞬间。最佳照片功能采用计算机视觉技术，可以实时保存并分析按下设备快门键前后的图像帧，向您推荐多张高质量 HDR+ 备选照片。

何恺明组又出神作！最新论文提出全景分割新方法

FAIR何恺明团队最新论文提出“全景FPN”，聚焦于图像的全景分割任务，将分别用于语义分割和实例分割的FCN和Mask R-CNN结合起来，设计了Panoptic FPN。该方法可能成为全景分割研究的强大基线。

效果惊人：上古卷轴III等经典游戏也能使用超分辨率GAN重制了

图像超分辨率是指从观测到的低分辨率图像重建出相应的高分辨率图像，这种重建不仅指令图像变得清晰锐利，同时还表示模型需要利用图像的高级语义信息重建出丢失的信息。因此这实际上是一个比较困难的任务，不过目前基于卷积神经网络或生成对抗网络的方法还是有比较好的效果。

CES2019第二天AR/VR汇总：现代展示全息AR导航，LetinAR亮相80°FOV AR模组

CES 2019消费电子展正式进入第二天，除了一些大的或直接和VR/AR相关的展台外，也有不少展台纷纷将VR与之案例相结合进行展示，这在近一年的展会中经常见到。

图像

iOS 图片压缩方法

本文介绍了两种图片压缩方法：压缩图片质量(Quality)，压缩图片尺寸(Size)。如果要保证图片清晰度，建议选择压缩图片质量。如果要使图片一定小于指定大小，压缩图片尺寸可以满足。

音视频技术开发周刊 82期

猜你喜欢