音视频技术开发周刊 86期

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第86期内容，祝您阅读愉快。

架构

2019年低延迟直播技术展望

低延迟视频直播是2018年的热门话题之一。本文通过多个实际用例详细介绍了不同场景下，影响用户体验的延迟范围，降低延迟的策略并探索可以为用户提供最佳体验的不断发展的技术。本文来自Mux博客，LiveVideoStack进行了翻译。

iOS 直播架构以及知识点

AVFoundation:AVFoundation是用来播放和创建实时的视听媒体数据的框架，同时提供Objective-C接口来操作这些视听数据，比如编辑，旋转，重编码。

开源视频播放框架学习——AndroidVideoCache

AndroidVideoCache框架的思想就是在本地构建一个ServerSocket作为代理服务器，将对Mp4地址进行封装，从而拦截到本地ServerSocket，拦截之后解析出url和请求头进行真正的网络请求。

基于WASM的H265 Web播放器

本文介绍了在Web环境下使用WASM、WebGL、Web Audio、FFmpeg等技术实现在浏览器上播放H265视频的核心技术，并给出代码，以作参考。

WebRTC 开发实践：为什么你需要 SFU 服务器

当你入门 WebRTC 之后，很快就会接触到一个名词，叫做：SFU，你可能很容易就在网上寻找到很多 SFU 的开源实现，并并兴致勃勃地开始编译、部署和测试这些服务器，但是可曾想过，为啥我们的 WebRTC 应用需要 SFU 服务器？

WebRTC自适应网络带宽的记录和思考

本篇文章的主要目的是记录一下搜索到的有关”WebRTC自适应网络带宽“的文章。

传输网络

优化延迟的最佳视频传输方案（三）

之前的两篇文章《优化延迟的最佳视频传输方案（一）》和《优化延迟的最佳视频传输方案（二）》介绍了视频传输系统中分发链前端、媒体内容准备、内容传输和播放端优化方面的最佳方案，本文将对后续整体的性能测试进行介绍。

《图解TCP/IP》之TCP与UDP

TCP/IP中有两个具有代表性的传输层协议，它们分别是TCP和UDP。TCP提供可靠的通信传输，而UDP则常被用于让广播和细节调控交给应用的通信传输。

音频/视频技术

B站Up主上传质量调优实践

Up主上传的大量优质视频内容使得bilibili（B站）深受年轻用户的喜爱。bilibili视频云高级研发经理唐君行在LiveVideoStack线上交流分享中详细介绍了B站为提供更流畅、稳定用户体验，努力优化上传系统架构，建立质量体系以及质量调优中的实践经验。

Android音视频点/直播模块开发

随着音视频领域的火热，在很多领域（教育，游戏，娱乐，体育，跑步，餐饮，音乐等）尝试做音视频直播/点播功能，那么作为开发一个小白，如何快速学习音视频基础知识，了解音视频编解码的传输协议，编解码方式，以及如何技术选型，如何解决遇到的坑。

Android 音视频开发(三)：使用 AudioTrack 播放PCM音频

AudioTrack 类可以完成Android平台上音频数据的输出任务。AudioTrack有两种数据加载模式（MODE_STREAM和MODE_STATIC），对应的是数据加载模式和音频流类型，对应着两种完全不同的使用场景。

YY视频直播体验优化实践

YY音视频算法中心负责人林绪虹在LiveVideoStackCon 2018音视频技术大会的演讲中介绍了YY如何实现全平台差异化直播能力，以及视频画质、流畅度、音视频同步、弱网条件下开播，连麦质量等直播体验核心技术指标的优化策略。LiveVideoStack对演讲内容进行了整理。

编解码

MPEG会议最新进展

第125届MPEG会议于2019年1月14日至18日在摩洛哥马拉喀什成功举行，会议成果主要包括：MPEG将基于网络的媒体处理（NBMP）的规范推广到委员会草案阶段，发布了关于3DoF+ Visual的提案征集，开始研究新的编码标准MPEG-5 EVC，基于ISOBMFF格式的规范文档和参考软件的开发进入国际标准草案阶段和第二版MPEG-21用户描述规范定稿等。本文总结自MPEG第125次会议报告。

Intel MSDK 硬解码

Intel MSDK 是 Intel 公司提供的基于硬件加速功能的多媒体开发框架，通过 Intel 显卡的硬件加速功能（Intel® Quick Sync Video），可实现快速视频转码和图像处理。

iOS视频开发（三）：视频H264硬解码

VideoToolBox的硬编码器编码出来的H264数据第一帧为I帧，我们也可以手动告诉编码器编一个I帧给我们。按照H264的数据格式，I帧前面必须有sps和pps数据，解码的第一步初始化解码器正是需要sps和pps数据来对编码器进行初始化。

AI智能

Facebook实时人体姿态估计：Dense Pose及其应用展望

Facebook 和 Inria France 的研究人员分别在 CVPR 2018 和 ECCV 2018 相继发表了两篇有关「人体姿态估计」(human pose estimation) 的文章 [1] [2]，用于介绍他们提出的 Dense Pose 系统以及一个应用场景「密集姿态转移」（dense pose transfer）。

绝佳的ASR学习方案：这是一套开源的中文语音识别系统

ASRT 是一套基于深度学习实现的语音识别系统，全称为 Auto Speech Recognition Tool，由 AI 柠檬博主开发并在 GitHub 上开源（GPL 3.0 协议）。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。

目前最强性能的人脸检测算法（Wider Face Dataset）

随着人脸检测基准数据集的广泛应用，近年来各种算法都取得了很大的进展。其中，Selective Refinement Network（SRN）人脸检测器有选择地将分类和回归操作引入到anchor-based的人脸检测器中，以减少假阳性同时提高定位精度。此外，它还设计了一个感受野增强块，以提供更多样化的感受野。

图像

Python 实现 Canny 边缘检测算法

Canny 边缘检测算法由计算机科学家 John F. Canny 于 1986 年提出的。其不仅提供了算法，还带来了一套边缘检测的理论，分阶段的解释如何实现边缘检测。

音视频技术开发周刊 86期

猜你喜欢