音视频技术开发周刊 86期

640?wx_fmt=jpeg


音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期。点击『阅读原文』,浏览第86期内容,祝您阅读愉快。


架构


2019年低延迟直播技术展望

低延迟视频直播是2018年的热门话题之一。本文通过多个实际用例详细介绍了不同场景下,影响用户体验的延迟范围,降低延迟的策略并探索可以为用户提供最佳体验的不断发展的技术。本文来自Mux博客,LiveVideoStack进行了翻译。


iOS 直播架构以及知识点

AVFoundation:AVFoundation是用来播放和创建实时的视听媒体数据的框架,同时提供Objective-C接口来操作这些视听数据,比如编辑,旋转,重编码。


开源视频播放框架学习——AndroidVideoCache

AndroidVideoCache框架的思想就是在本地构建一个ServerSocket作为代理服务器,将对Mp4地址进行封装,从而拦截到本地ServerSocket,拦截之后解析出url和请求头进行真正的网络请求。


基于WASM的H265 Web播放器

本文介绍了在Web环境下使用WASM、WebGL、Web Audio、FFmpeg等技术实现在浏览器上播放H265视频的核心技术,并给出代码,以作参考。


WebRTC 开发实践:为什么你需要 SFU 服务器

当你入门 WebRTC 之后,很快就会接触到一个名词,叫做:SFU,你可能很容易就在网上寻找到很多 SFU 的开源实现,并并兴致勃勃地开始编译、部署和测试这些服务器,但是可曾想过,为啥我们的 WebRTC 应用需要 SFU 服务器 ?


WebRTC自适应网络带宽的记录和思考

本篇文章的主要目的是记录一下搜索到的有关”WebRTC自适应网络带宽“的文章。


传输网络


优化延迟的最佳视频传输方案(三)

之前的两篇文章《优化延迟的最佳视频传输方案(一)》和《优化延迟的最佳视频传输方案(二)》介绍了视频传输系统中分发链前端、媒体内容准备、内容传输和播放端优化方面的最佳方案,本文将对后续整体的性能测试进行介绍。


《图解TCP/IP》之TCP与UDP

TCP/IP中有两个具有代表性的传输层协议,它们分别是TCP和UDP。TCP提供可靠的通信传输,而UDP则常被用于让广播和细节调控交给应用的通信传输。


音频/视频技术


B站Up主上传质量调优实践

Up主上传的大量优质视频内容使得bilibili(B站)深受年轻用户的喜爱。bilibili视频云高级研发经理 唐君行在LiveVideoStack线上交流分享中详细介绍了B站为提供更流畅、稳定用户体验,努力优化上传系统架构,建立质量体系以及质量调优中的实践经验。


Android音视频点/直播模块开发

随着音视频领域的火热,在很多领域(教育,游戏,娱乐,体育,跑步,餐饮,音乐等)尝试做音视频直播/点播功能,那么作为开发一个小白,如何快速学习音视频基础知识,了解音视频编解码的传输协议,编解码方式,以及如何技术选型,如何解决遇到的坑。


Android 音视频开发(三):使用 AudioTrack 播放PCM音频

AudioTrack 类可以完成Android平台上音频数据的输出任务。AudioTrack有两种数据加载模式(MODE_STREAM和MODE_STATIC),对应的是数据加载模式和音频流类型, 对应着两种完全不同的使用场景。


YY视频直播体验优化实践

YY音视频算法中心负责人林绪虹在LiveVideoStackCon 2018音视频技术大会的演讲中介绍了YY如何实现全平台差异化直播能力,以及视频画质、流畅度、音视频同步、弱网条件下开播,连麦质量等直播体验核心技术指标的优化策略。LiveVideoStack对演讲内容进行了整理。


编解码


MPEG会议最新进展

第125届MPEG会议于2019年1月14日至18日在摩洛哥马拉喀什成功举行,会议成果主要包括:MPEG将基于网络的媒体处理(NBMP)的规范推广到委员会草案阶段,发布了关于3DoF+ Visual的提案征集,开始研究新的编码标准MPEG-5 EVC,基于ISOBMFF格式的规范文档和参考软件的开发进入国际标准草案阶段和第二版MPEG-21用户描述规范定稿等。本文总结自MPEG第125次会议报告。


Intel MSDK 硬解码

Intel MSDK 是 Intel 公司提供的基于硬件加速功能的多媒体开发框架,通过 Intel 显卡的硬件加速功能(Intel® Quick Sync Video),可实现快速视频转码和图像处理。


iOS视频开发(三):视频H264硬解码

VideoToolBox的硬编码器编码出来的H264数据第一帧为I帧,我们也可以手动告诉编码器编一个I帧给我们。按照H264的数据格式,I帧前面必须有sps和pps数据,解码的第一步初始化解码器正是需要sps和pps数据来对编码器进行初始化。


AI智能


Facebook实时人体姿态估计:Dense Pose及其应用展望

Facebook 和 Inria France 的研究人员分别在 CVPR 2018 和 ECCV 2018 相继发表了两篇有关「人体姿态估计」(human pose estimation) 的文章 [1] [2],用于介绍他们提出的 Dense Pose 系统以及一个应用场景「密集姿态转移」(dense pose transfer)。


绝佳的ASR学习方案:这是一套开源的中文语音识别系统

ASRT 是一套基于深度学习实现的语音识别系统,全称为 Auto Speech Recognition Tool,由 AI 柠檬博主开发并在 GitHub 上开源(GPL 3.0 协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。


目前最强性能的人脸检测算法(Wider Face Dataset)

随着人脸检测基准数据集的广泛应用,近年来各种算法都取得了很大的进展。其中,Selective Refinement Network(SRN)人脸检测器有选择地将分类和回归操作引入到anchor-based的人脸检测器中,以减少假阳性同时提高定位精度。此外,它还设计了一个感受野增强块,以提供更多样化的感受野。


图像


Python 实现 Canny 边缘检测算法

Canny 边缘检测算法由计算机科学家 John F. Canny 于 1986 年提出的。其不仅提供了算法,还带来了一套边缘检测的理论,分阶段的解释如何实现边缘检测。

猜你喜欢

转载自blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/87707250