音视频技术开发周刊 78期

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第78期内容，祝您阅读愉快。

架构

HDR视频生态系统纵览

Flatpanels作者Yoeri Geutskens对HDR视频生态系统进行了调查并以图表的形式展示。HDR视频图表根据公司业务类型进行分类并通过所使用HDR的格式进行了更详细的划分。LiveVideoStack对描述文章进行了翻译。

扫描二维码关注公众号，回复： 4572363 查看本文章

跨国实时网络调度系统设计

跨国应用场景下网络的复杂性、不稳定和高丢包率对网络的实时性和流畅性提出了更高的挑战。本文是即构科技技术副总裁冼牛在LiveVideoStackCon 2018大会上的分享，深入探讨了实时网络调度系统的部署、架构设计、挑战和应对策略。由LiveVdeoStack整理而成。

Netflix数据库架构变革：缩放时间序列的数据存储

Netflix分析了其数据集的访问模式，对查看数据存储架构进行了重新设计，并采用群集分片的数据分类方式，实时和压缩数据并行的读取模式。以寻求满足更多的独特需求与成本，效率的改进。本文来自Netflix技术博客，LiveVideoStack对文章进行了翻译。

WebSocket 和 DWR 做 Web 端即时通信

WebSocket是HTML5出的东西（协议），也就是说HTTP协议没有变化，或者说没关系，但HTTP是不支持持久连接的（长连接，循环连接的不算）。

GPU和FPGA优缺点的对比

从峰值性能来说，GPU（10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的，最新的GPU峰值性能可达10TFlops以上。

音频/视频技术

短视频秒播优化实践（一）

在短视频的体验中，起播速度无疑是最影响体验的指标之一，因为短视频很短，十几秒到几分钟不等，如果一个十几秒的视频，加载时间都要3秒，肯定是一个很坏的体验；所以在产品定义之初，起播速度就设定了控制在1秒左右，大部分在1秒内，也就是业内说的“秒播”，这需要对播放流程进行优化。

短视频秒播优化实践（二）

之前我们介绍了在线短视频秒播优化的方方面面，从服务器，cdn部署接入，数据连接/获取，客户端缓存，出帧策略，到视频文件I帧位置等。本文从视频文件格式的另外一个角度介绍，MP4文件的box排列顺序是如何影响，在线短视频的播放以及秒播优化的。

播放器技术分享（3）：音画同步

第一期文章要推出的内容主要涉及到播放器比较核心的几个技术点，本篇是系列文章的第三篇，主要聊一聊播放器的音画同步。

pydub库---语音增强

最近使用Python调用百度的REST API实现语音识别，但是百度要求音频文件的压缩方式只能是pcm（不压缩）、wav、opus、speex、amr，这里面也就wav还常见一点，但是一般设备录音得到的文件都是mp3，这就要把mp3转换为wav。

基于Web Audio API实现音频可视化效果

网页音频接口最有趣的特性之一它就是可以获取频率、波形和其它来自声源的数据，这些数据可以被用作音频可视化。这篇文章将解释如何做到可视化，并提供了一些基础使用案例。

远场语音技术简介

远场语音是一种人与机器间的交互方式，相对与近场语音来说，区别是它的作用距离通常会在1米到10米之间，主要的技术难点在于对于多径反射、混响效应及背景噪音干扰的处理。

编解码

基于QoE的实时视频编码优化：低功耗，低延时，高质量

在实时通信领域，只有当Codec的优化适应了当前的网络状况，设备平台及应用场景，用户才能得到最佳的体验。在LiveVideoStackCon2018大会中声网Agora视频工程师吴晓然详细介绍了如何设计与实现基于QoE的实时视频编码优化。本文由LiveVideoStack整理而成。

HEVC CABAC解码

解码slice segment data过程中，每碰到1个syntax element需要解析时，需参考Table 9-48等表格组合解析，整理整个流程解码如下。

Android MediaCodec图片合成视频

利用MediaCodec可以录制视频，可是可以将图片合成视频吗？之前使用FFmpeg来实现。但是，FFmpeg却是c++写的，而且非常占用内存，虽然它是非常棒的音视频处理库，但是杀鸡焉用牛刀，所以今天就讲一下：如何利用Android API中的MediaCodec来实现图片合成视频。

FAAD解码AAC音频

在使用FAAD解码前我们首先导入faad库，相关库及源码可从https://www.audiocoding.com/faad2.html下载。使用FAAD解码AAC数据为PCM时，主要分为4个步骤：1、创建解码器；2、配置解码器；3、解码AAC数据为PCM数据；4、解码完毕，关闭解码器

AI智能

快慢结合效果好：FAIR何恺明等人提出视频识别SlowFast网络

在本文中，FAIR与何恺明等人介绍了用于视频识别的 SlowFast 网络，提出要分开处理空间结构和时间事件。该模型在视频动作分类及检测方面性能强大：在没有使用任何预训练的情况下，在 Kinetics 数据集上实现了当前最佳水平；在 AVA 动作检测数据集上也实现了 28.3 mAP 的当前最佳水准。

对象检测（object detection）算法图解

本文简要介绍图像检测中常用的深度学习方法——RCNN家族系列算法，以图像讲解形式，便于理解。

视频语义分割介绍

随着深度学习的发展，图像语义分割任务取得了很大的突破，然而视频语义分割仍然是一个十分具有挑战性的任务，本文将会介绍视频语义分割最近几年顶会上的一些工作。

语音合成的速度如何提升400％？或许你可以了解下深度前馈序列记忆网络（附带英文论文）

循环神经网络虽然具有很强的建模能力，但是其训练通常采用 BPTT 算法，存在训练速度缓慢和梯度消失问题。我们之前的工作，提出了一种新颖的非递归的网络结构，称之为前馈序列记忆神经网络（feedforward sequential memory networks， FSMN），可以有效的对信号中的长时相关性进行建模。相比于循环神经网络，FSMN 训练更加高效，而且可以获得更好的性能。

图像

K-Means聚类进行图像处理实战

在K-Means聚类算法原理中，我们对K-Means的原理做了总结，本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。

图像灰度拉伸

图像灰度拉伸是改变图像对比度的一种方法，通过灰度映射，将原图中某一区段中的灰度值映射到另一灰度值，从而拉伸或压缩整个图像的灰度分布范围。

音视频技术开发周刊 78期

猜你喜欢