音视频技术开发周刊 81期

640?wx_fmt=jpeg

『音视频技术开发周刊』由LiveVideoStack团队出品，专注在音视频技术领域，纵览相关技术领域的干货和新闻投稿，每周一期。点击『阅读原文』，浏览第81期内容，祝您阅读愉快。

架构

舞台现场直播技术实践

舞台现场直播由于场景复杂度高，对各环节的可靠性要求也非常高。YY音视频技术专家朱明亮在LiveVideoStack线上交流分享中结合YY直播实践详细解析了直播中涉及的视频采集卡编程，软硬件编码，视频滤镜处理等内容。本文由LiveVideoStack整理而成。

爱奇艺视频版权保护技术与维权实践

随着海量多媒体应用内容的产生,对内容的安全性要求也相应提高.爱奇艺技术产品中心高级经理陈赫从多个方面介绍了爱奇艺在版权保护上的技术探索与维权实践.本文来自陈赫在LiveVideoStack线上交流分享，并由LiveVideoStack整理而成。

DASH && Nginx 源码解析 && WebRTC学习资料收集

自适应流媒体传输（四）——深入理解MPD

在MPEG-DASH中将一组不同编码参数的媒体内容和相应的描述集合定义为媒体展示（presentation）。这里的媒体内容是由单个或多个时间上连续的媒体时段（period）组成的，这些媒体时段的内容相互之间可能完全独立。

SIP笔记-----语音质量分析

目前比较常用的对语音的主观评定方法是使用MOS方法。根据P.830建议的要求，特定的发话者与听话者在特定的环境下，通过收集测试者在各种不同情景下的主观感受，根据P.830的分析法则得出该语音的品质。

音频/视频技术

语音识别技术之关键词检索

语音关键词检索也叫spoken term detection, 或keyword spotting。有别于大家熟知的文本搜索的最大特点是语音关键词检索是对语音文件的搜索。

视频云肖长杰：视频AI科技助力短视频生态

人工智能技术已经应用到了视频的生产、传输、消费等各个阶段。比如，在用户创作阶段，基于人脸识别及跟踪技术实现瘦脸、大眼、美白功能已经相当常见；当视频上传到服务端之后，我们会对视频内容进行审核、去重、溯源等处理，并进一步对视频的打标、分类，同时采用AI技术去定义最有美学感的封面，便于完成用户个性化搜索、智能推荐等动作，提升用户的点击率和体验。

搭建直播平台过程中Android端直播APP源码是如何实现连麦功能的？

直播平台强大的变现能力是大家有目共睹的，很多开发商在搭建直播平台时为了增加用户黏性，纷纷将直播中加入连麦功能。

目前市场上通用的有两种连麦方案：本地混流和云端混流。

Windows 下视频采集技术

在 Windows 下主要有两种方法来采集视频: 一种是通过 Media Foundation，另一种是通过 DirectShow。Meida Foundation 是 Windows 从 vista 之后推出的一套全新的多媒体SDK，简单方便，从 Win7 开始成熟起来。另一种是 DirectShow，它主要用于 win7 之前的采集视频。

编解码

MPEG V-PCC项目启航

本文参考Adrian Pennington近期发表在IBC的文章MPEG heads to the holograph，重点介绍了MPEG正在推广的基于视频的点云压缩技术 (V-PCC)。V-PCC解决了3D点云（空间中的一组数据点）的编码，以及相关的例如颜色的属性。其目的是启用包括人物角色表示在内的新应用。换句话说，人形化身或全息图作为沉浸式扩展现实的一部分在不久的将来就会实现。

帧间预测编码的基本原理

在H.264中，预测编码与变换/量化编码、熵编码并列的重要组成部分，对编解码器的性能具有重大影响。预测编码主要包括两部分：帧内预测和帧间预测。

Netflix：我们是如何评估Codec性能的？

Netflix会定期评估现有和即将推出的视频编解码器，不断优化视频编码技术以提供更高质量的服务。本文介绍了视频编码器性能评估中的几项重要元素以及如何从传统与自适应流媒体两种视角进行编解码器性能对比。本文来自Netflix技术博客，LiveVideoStack进行了翻译。

H264视频与pcm音频合成MP4视频格式

H.264是压缩过的数据，PCM是原始数据，MP4是一种视频封装格式。实际H.264与PCM不能直接合成MP4格式，因为音频格式不对。这里需要中间对音频做一次压缩处理。基本流程为：将PCM音频数据压缩成AAC格式音频数据，再将AAC与H.264合成MP4视频格式。

AI智能

裤子换裙子，就问你GAN的这波操作秀不秀

把照片里的绵羊换成长颈鹿、牛仔长裤换成短裙。听起来有点不可思议，但韩国科学技术院和浦项科技大学的研究人员目前已实现了这一骚操作。他们开发的一种机器学习算法可在多个图像数据集上实现这种操作。其论文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。

中科院发布了目标追踪数据集，1万多条视频，150万个边界框

中科院发布了一个目标追踪数据集，叫做Got-10k。很大，很精致。它包含了超过10,000条视频，主角都是在现实世界里移动的物体，分成560多个类别。物体的边界框全部是手动标记，总计超过150万个。

谷歌新研究用深度学习合成运动模糊效果，手抖也能拍出摄影师级照片

谷歌的研究人员最近开发了一种新技术，使用连续拍摄的一对非模糊图像，能够合成运动模糊图像。在发表在arXiv上的预印版论文中，研究人员概述了他们的方法，并与几种基线方法对比，对其进行了评估。

干掉高速摄像头！神经网络生成极慢视频，突破人类肉眼极限（PyTorch实现）

英伟达团队CVPR-18论文Super SloMo使用深度学习，能将任意视频变为“高清慢速播放”模式，从此不再错过任何细节。今天有人开源了PyTorch实现，赶紧来试试吧！

图像

深度学习AI美颜系列----人像静态/动态贴纸特效算法实现

人像静态/动态贴纸特效几乎已经是所有图像视频处理类/直播类app的必需品了，这个功能看起来复杂，实际上很简单，本文将给大家做个详细的讲解。

音视频技术开发周刊 81期

猜你喜欢