音视频技术开发周刊(第126期)

每周一期,纵览音视频技术领域的干货和新闻投稿:[email protected]

架构

基于 TCP 的服务器 WebRTC 通道质量指示器

看看 WebRTC 在 TCP 上是如何工作的吧。

WebRTC连接:一些关于NAT穿越的简要原理

或许你在前一段时间听闻IPv4地址枯竭的新闻,IPv4地址只有32位长,理论最多42.9亿条。大概在94年时候,提出了IP网络地址转换NAT 的RFC规范,作为一个临时方案来解决IPv4地址枯竭的问题。这个方案就是要把IP地址重用。在边缘网络引入NAT设备,由它来负责维护本地服务IP和端口的映射到公网IP和端口。NAT内部的本地IP地址空间可以被许多不同的子网络重用,从而解决地址耗尽的问题。

如何构建一个 AR 增强现实远程援助应用程序

大多数远程协助都是通过基于音频或文本的聊天完成的。这些解决方案对于可能难以描述问题或难以理解与故障排除相关的新概念和术语的用户而言,可能会遇到麻烦。幸运的是,技术已经达到可以使用“视频聊天”和“增强现实”轻松解决此问题的地步。在本指南中,我们将逐步介绍构建一个利用ARKit和视频聊天来创建交互式体验的iOS应用所需的所有步骤。

WebRTC电话会议可能会出现什么问题

电话会议总是很复杂,WebRTC的加入可能会使它们变得更简单,但也确实带来了一系列的麻烦。

传输网络

网络传输协议kcp原理解析

KCP是一个快速可靠协议,能以比 TCP浪费10%-20%的带宽的代价,换取平均延迟降低 30%-40%,且最大延迟降低三倍的传输效果。纯算法实现,并不负责底层协议(如UDP)的收发,需要使用者自己定义下层数据包的发送方式,以 callback的方式提供给 KCP。连时钟都需要外部传递进来,内部不会有任何一次系统调用。

通过QUIC 0-RTT建立更快的连接

本文主要探讨TLS协议,看看它如何允许客户机开始发送HTTP要求,并且无需等待TLS握手完成即可减少延迟、建立更快的连接。此外,之中会有一些风险如通过API端点发送HTTP请求间的bank API重放攻击、Cloudware如何拒绝0-RTT请求并通过加密保护连接网络。感谢学而思网校架构师刘连响对本文的技术审校。

编解码

将视频编码工具用到WebP图片中

本文是来自Alliance for Open Media Research Symposium2019的演讲,作者是来自Google的Pascal Massimino。他带来的演讲主题是:如何利用现有的视频编码工具,构建一个更优质的新型图片格式。

神经网络媒体压缩的机遇

本文是来自AOMedia Symposium 2019的演讲,讲者是来自于Google公司的George Toderici。本次演讲主要讲述了使用神经网络做压缩的终极目标,现有SoTA神经压缩模型的综述,以及未来的机遇。

Android音视频硬编码:生成一个MP4

本文将结合前面系列文中介绍的MediaCodec、OpenGL、EGL、FBO、MediaMuxer等知识,实现对一个视频的解码,编辑,编码,最后保存为新视频的流程。

视频技术

视频云下半场 向前走还是向“厚”走?

从2016年至今,流量的增长基本进入到了平稳期,此时,面向产业界和开发者,我们如何提供更多、更新的能力给到他们,提升平台的用户体验?本文来自腾讯云视频业务产品总监黄斌在LiveVideoStackCon 2019深圳站上的精彩分享,希望和业界一起探讨视频云下半场的方向与定位,也希望与产业界同仁一道,共建更好的大视频生态。

Dana & AudioServer - 转录

多年来,我们一直在要求Asterisk中的一项新功能,该功能使我们能够以一种可用的形式从Asterisk中获取原始音频流,从而使我们能够将语音与文本引擎,机器人平台等集成在一起,这成为了可能在Asterisk 16.6版中。

福克斯体育 1 台启用视频呼叫中心扩容了包括 The Herd with Colin Cowherd 在内的热门节目的覆盖范围

喜欢它全面使用视频服务的方式,而不仅仅是他们自己实现了 WebRTC。

Demuxed 2019 演讲视频选

WebRTC/传统的内容分销

  • 第一场演讲的演讲者是来自Comcast的Bryan Meissner。

    演讲者首先介绍了WebRTC,WebRTC是用于低延迟流传输的出色协议,但是仅支持少数编码器。

    以安全摄像机为例,它出现在H.264之前,因此他们提出了一种与WebRTC对等的支持H.264内容的方式。

  • 第二场演讲的演讲者是来自Google的Ty Bekiares,演讲者首先介绍了传统的内容分销模式,然后介绍了他们提出的边缘转码模型,并陈述了边缘转码的优缺点。

    接着讲了他们在ffmepg和QuickSync上做的一些测试。

    然后详细介绍了基于最小可接受质量的视频质量指标,最后介绍了一些仍需考虑的问题。

CMAF and DASH-IF/日本字幕/MPEG-5第2部分LCEVC的编解码过程

  • 第一场演讲的演讲者是来自Unified Streaming的Rufael Mekuria,演讲者首先阐明了提出DASH-IF实时摄取协议的原因,然后介绍了它的两个接口:

    CMAF摄取和DASH/HLS摄取,并介绍了该协议的一些好处。

    最后,详细介绍了他们提供的CMAF开源实现,并介绍了下一步的工作。

  • 第二场演讲的演讲者是来自Brightcove的Gary Katsevman,演讲主题是”,演讲者首先对字幕的使用情况做了简要说明,然后对日本的字幕做了详细的阐述,共介绍了日本字幕的5个特点,以及诸如IMSC和WebVTT这些字幕标准对这些功能的支持。

  • 第三场演讲的演讲者是来自V-Nova的Guido Meardi,演讲者首先解释了低复杂度视频编码标准的必要性,然后讲解了MPEG-5第2部分LCEVC的编解码过程,然后对比了LCEVC和x264,x265在一些测试序列上的性能,最后介绍了LCEVC的下一步的工作。

AI智能

SDR2HDR及视频增强的AI技术研究

宋利教授从超高清及SDR2HDR概要、视频增强AI技术发展和HDR视频的主客观评价三个方面讲解了SDR2HDR及视频增强的AI技术研究。

北理工&阿里文娱:结合常识与推理,更好地理解视频并生成描述

人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文介绍结果:今年最终收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》进行解读。

图像

感知优化深度图像压缩

本文是来自alliance for open media research symposium2019的演讲,作者是来自于UT Austin的PhD,Li-Heng Chen。本次演讲主要讲述如何在感知上优化深度图像压缩。

通过替代文本描述使LinkedIn媒体更具包容性

作为我们为全球员工的每一位成员提供经济机会的愿景的一部分,LinkedIn为会员们创造了一个独特的环境,使会员们可以联网、学习、共享知识,并找到工作。在很多方面,LinkedInfeed已经成为这项工作的核心,它是我们在网站上分享信息和参与对话的卓越方式。除了文本之外,富媒体也已经成为了feed的重要组成部分。

资源推荐

纯前端实现人脸识别自动佩戴圣诞帽

Tensorflow.js 是Google 推出的第一个基于 TensorFlow 的前端深度学习框架。它允许你在浏览器上训练模型,或以推断模式运行预训练的模型。TensorFlow.js 不仅可以提供低级的机器学习构建模块,还可以提供高级的类似 Keras 的 API 来构建神经网络。

点击“阅读原文”可查看更多详细信息,请大家科学上网。

发布了449 篇原创文章 · 获赞 325 · 访问量 44万+

猜你喜欢

转载自blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/103760117