音视频技术开发周刊 80期

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第80期内容，祝您阅读愉快。

架构

DeepFocus，基于AI实现更逼真的VR图像

DeepFocus是一种基于AI的渲染系统，用于在VR中渲染自然逼真的人眼聚焦效果。本文来自Facebook工程博客，LiveVideoStack进行了翻译。感谢阿里巴巴高级算法专家盛骁杰提供的技术审校。

WebRTC直播课堂实践：实时互动是核心

随着低延时流媒体技术的不断进步，在线教育行业持续升温。本文来自七牛云在线教育行业解决方案专家徐晶在LiveVideoStackCon2018大会中的演讲。在演讲中他阐述了基于WebRTC架构的低延时直播技术突破以及其在教育行业中的实践与思考。本文由LiveVideoStack整理而成。

CoNEXT 2018：在Facebook上部署IETF QUIC

在12月初举行的CoNEXT 2018 EPIQ研讨会上来自Facebook的Subodh Iyengar详细介绍了Facebook如何在其基础设施中使用IETF-QUIC，并且通过Android和iOS设备上的Facebook应用程序在移动客户端上进行实验。本文来自QUIC-Tracker的博客，LiveVideoStack进行了翻译。

P2P技术详解(三)：P2P技术之STUN、TURN、ICE详解

很多时候，我们希望网络中的两台主机能够直接进行通信，即所谓的P2P通信，而不需要其他公共服务器的中转。由于主机可能位于防火墙或NAT之后，在进行P2P通信之前，我们需要进行检测以确认它们之间能否进行P2P通信以及如何通信。这种技术通常称为NAT穿透（NAT Traversal）。最常见的NAT穿透是基于UDP的技术，如RFC3489中定义的STUN协议。

基于CPU的深度学习推理部署优化实践

随着人工智能技术在爱奇艺视频业务线的广泛应用，深度学习算法在云端的部署对计算资源，尤其是 GPU 资源的需求也在飞速增长。如何提高深度学习应用部署效率，降低云平台运行成本，帮助算法及业务团队快速落地应用和服务，让 AI 发挥真正的生产力，是深度学习云平台团队努力的目标。

音频/视频技术

视频采集：iOS平台基于AVCaptureDevice的实现

本篇文章简单介绍了移动端iOS系统下利用AVCaptureDevice进行视频数据采集的方法。

优化短视频实现“秒播”技术分析

在短视频的体验中，起播速度无疑是最影响体验的指标之一，因为短视频很短，十几秒到几分钟不等，如果一个十几秒的视频，加载时间都要3秒，肯定是一个很坏的体验；所以在产品定义之初，起播速度就设定了控制在1秒左右，大部分在1秒内，也就是业内说的“秒播”，这需要对播放流程进行优化。

视频会议的开发与探索（一）：WebRTC的狂野世界

Facebook,WhatsApp,FaceTime和Signal是其中几种用户可以用来在网络中进行视频，音频通话的方式。尽管很多研究已经开始转为对视频会议的加密和隐私保护，关于这些平台的易受攻击程度的信息却很少。我们查阅了三个最为广泛使用的视频会议实现方式。在本文中，我们会对此描述。

anyRTC Zoom模式多人音视频开发教程-iOS [附源码]

本文介绍了如何使用anyRTC多人视频sdk来模仿Zoom多人视频样式。

编解码

2018:视频标准混战的元年序幕

在寸土必争的Codec市场，几股力量正面交锋，格外精彩。HEVC(H.265)壮志雄心，H.264老当益壮，AV1来势汹汹（据说AV2也在计划中了），Codec展现出一场激烈与繁荣的景象。本文来自李大龙的投稿，文章总结了几大Codec阵营的状态与策略。对于B端用户和C端消费者而言，竞争是件好事情。

VP9如何给Twitch的电竞直播带来价值？

本文来自Twitch的科技博客，详细解读了该平台如何将VP9用于其电竞赛事的直播。通过FPGA硬件加速，VP9能极大提升视频直播服务的质量。LiveVideoStack对原文进行了摘译，感谢Twitch的首席研发工程师沈悦时博士提供的技术审校。

FFmpeg解码MP4文件为YUV文件

前面我学了编译FFmpeg的Android库，写了一个命令行使用FFmpeg的Android Demo，C文件都在虚拟机实现，然后ndk编译成so库，再导入Android studio使用，Android代码中没有C / C ++文件，很纯净的样子。但是，在虚拟机写C代码的时候，没有自动补全功能，很不方便。所以这次用Cmake编译JNI，直接在Android工作室中使用代码补全功能！

AI智能

图神经网络综述：模型与应用

图是一种数据结构，它对一组对象（节点）及其关系（边）进行建模。近年来，由于图结构的强大表现力，用机器学习方法分析图的研究越来越受到重视。图神经网络（GNN）是一类基于深度学习的处理图域信息的方法。由于其较好的性能和可解释性，GNN 最近已成为一种广泛应用的图分析方法。

图片语义分割深度学习算法要点回顾

在这篇博文中，将详细介绍了一些关于图像语义分割挑战的最新模型。注意，研究人员使用不同的数据集（PASCAL VOC、PASCAL Context、COCO、Cityscapes）测试他们的算法，这些数据集在不同年份之间不同，并且使用不同的评估度量。

何恺明等最新突破：视频识别快慢结合，取得人体动作AVA数据集最佳水平

继图像领域之后，现在的 CV 领域，大家都在研究哪些内容？近日，Facebook AI 实验室的 Christoph Feichtenhofer、何恺明等人发表一篇论文，在视频识别领域提出了一种 SlowFast 网络，并且在没有预训练模型情况下，此网络在 Kinetics 数据集上取得79.0% 的准确率，是当前该数据集上的最佳表现。在 AVA 动作检测数据集上，同样实现了 28.3 mAP 的最佳水准。

基于PyTorch的GAN框架TorchGAN：可轻松定制GAN项目

TorchGAN 是基于 PyTorch 的 GAN 设计开发框架。该框架旨在为流行的 GAN 提供构造模块，且允许为前沿研究进行定制化。

图像

图像特征提取之（一）HOG特征

方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。

音视频技术开发周刊 80期

猜你喜欢