智能制作,是我们改变时代的机会——阿里云视频云的理想与未来

邹娟,阿里云智能视频云高级技术专家

LiveVideoStackCon 2020 北京 讲师采访

“我是来自阿里云视频云的邹娟,现在主要负责媒体生产和媒体处理的架构设计及服务端开发。在来阿里之前呢,也一直深耕在音视频技术领域,做广电行业的媒资、音视频处理、快编等系统的设计与开发工作。

最近我比较关注媒体生产制作相关的一些技术,比如超高清制作、AI如何更好地融入到生产制作过程、甚至在创意阶段就参与进来的一些技术,还有就是如何能够在保持专业性和效果的同时,还能够降低使用门槛的一些工具和技术。最后就是一些更加专业的场景的模式和方法,比如电影剪辑之道,转播车/专业演播室/后期制作的流程和方法等等。”

“脱离场景谈AI就是耍流氓”

LiveVideoStack:入职阿里云以来,您所参与的最难忘的项目是什么,可以与LiveVideoStack的读者分享其中的一两个小故事吗?

邹娟:最难忘的项目是2018年世界杯球星集锦的项目,我在当中负责技术方案的设计以及核心的开发工作。这个项目的技术难点呢,首先是时间特别紧张,从我们决定要做球星集锦到最终上线,只有一周的时间。因为世界杯也就那么一个月,错过也就错过了。

这一周的时间要选择AI算法,选择时间线主区间的算法,时间线多区间边界扩散和收敛的算法,以及这些算法如何在工程层面配合,还要对最终合成效果反复调优

第二个难点就是,这么短的时间,除了语音识别在这之前为世界杯场景做过一些储备之外,其他算法可能是来不及去做一些场景适配的,这个时候就需要对算法的边界,也就是每个算法能达到的效果上限非常了解,要能够把像人脸识别、语音识别、视频分镜、Fifa实时场记等综合用好,为最终时间线的生成服务。

最后一点也是非常重要的一点,就是必须对场景非常了解。有句开玩笑的话,我觉得挺有意思,“脱离场景谈AI就是耍流氓”,如果不了解足球,不了解世界杯,可能就没有办法去理解一个球星在整个比赛过程中哪些片段是精彩的,或者是有看点的。

扫描二维码关注公众号,回复: 12025668 查看本文章

所以我非常庆幸自己是一个十几年的资深足球迷,对足球、世界杯、球星、球队都很了解,这也是项目能快速上线的一个重要原因。

LiveVideoStack:在您探索云媒体生产平台及相关产品的过程中,遇到的最大的难点是什么?

邹娟:最大的难点是打地基和架构设计的部分,因为这关系到整个平台后续的生命力。这里面要考虑多个维度的协同和关系,比如云和端的协同,专业与普惠的关系,现场实时制作与剪辑合成的融合等。

比如云和端,我们设计的理念是云端既可以一体无缝配合,也可以拆开来独立提供服务,也就是云+端可分可合的PaaS+ 架构,同时在渲染效果上尽量保持一致;然后就是专业与低门槛的平衡,在时间线的设计上要保留生产制作的专业性,但是在时间线的包装和使用上,又需要考虑普惠价值,让更多客户能低门槛地使用平台或服务。

对于现场实时制作与后期剪辑制作而言,不光是输入输出互为搭配,同时AI能力在各个环节的加持与复用,也是需要好好设计的。

LiveVideoStack:从技术和产品规划角度来说,云剪辑如何达到专业视频制作者的要求并匹配该人群一直以来的剪辑习惯?

邹娟:云剪辑在从0到1的阶段就考虑了专业视频制作的需求,这跟我本人在广电行业待了很多年有一定的关系。我很清楚对于视频剪辑这种视频领域的专业技术,需要从第一版就做相关规划,否则后面的迭代路径会非常痛苦。

云剪辑的核心设计(也就是在时间线/故事板的设计上),在3年前就充分考虑了专业非编对轨道、素材、效果、舞台布局等方面的要求,这样就从最初的版本,在时间线结构和生产制作协议层面就支持了专业视频制作的模式,那么上层做服务和工具可以用一种循序渐进的模式,做起来也会比较游刃有余。

2018年我们就支持了多层图像轨叠加、多轨混音、多种效果以及自适应舞台布局和自定义布局,对专业视频制作支持的还是比较早的。

LiveVideoStack:完善云剪辑产品的关键技术有哪些,阿里云的发力点在哪些具体场景的应用上?

LiveVideoStack:完善云剪辑产品的关键技术有哪些,阿里云的发力点在哪些具体场景的应用上?

邹娟:

关键技术有这么几个:

1) 剪辑效果的丰富度,以及云和端特效渲染的效果一致性

2) 实时制作+后期制作融合的技术

3) 超高清制作领域的技术

4) AI在生产制作领域的进化,从作用在素材上,进化到作用在剪辑效果与模板上,再到最终作用到成品的生成过程中

阿里云希望能推动这个时代将大部分内容的表达方式和信息的传播媒介,从图文进化为视频,这个就是我们的发力点。

LiveVideoStack:阿里云云剪辑的目标用户以及适用场景分别是什么?

邹娟:目标客户就是具有媒体生产制作需求的客户。我们的目标是为客户提供可规模化、可个性化的智能媒体生产的服务。

具体场景可能比较多,抽象来看是三个:

1) 第一个主打云端一体化制作:包括多轨音视频混音叠加、字幕制作、音视图文混编、特效渲染、模板工厂包装等等;

2) 第二个场景主打智能生成视频,这种智能化场景会在生产制作领域复制;

3) 第三种场景是内容资源库管理,比如素材库和成品库的智能媒资场景等。

LiveVideoStack:阿里云云剪辑产品的独特之处,或者说亮点是什么?

邹娟:阿里云云剪辑产品的独特之处,我觉得主要在于产品架构设计的开放性和专业性

开放性体现在你可以把它当做一个纯粹的云端服务用,也可以只使用Web端或者移动端的SDK或者工具,这两部分的能力输出是完全对等的。

当然还可以云端一体化地调用,把它当作PaaS+或通用SaaS的形态来保证生产制作过程效果与最终成品效果的一致性,也就是说,云剪辑的使用模式可以根据客户需求自由组合。

关于专业性,上一个问题已经讲过了,就不再赘述。

还有一点——阿里云云剪辑产品对于生产制作与AI的理解——我们认为生产制作是核心,AI是辅助。现在AI还没有达到真正可以创作有故事的视频这样的程度,我们会将AI能力融入到云剪辑的每一个分层的每一个环节中,然后再进行提炼和抽象,落地为智能生产场景,这些场景就具备了高度的可复制性。

LiveVideoStack:云剪辑产品的真正落地还需要哪些环境、技术条件的匹配?

邹娟:需要更稳定的网络环境和更高的带宽,以及AI在智能生产方面的准确率和效果进一步提升。

“在阿里云大家都是跑接力棒的”

LiveVideoStack:在您的技术进阶之路上,给您启发最大的是什么?

邹娟:在我的技术进阶之路上,给我启发最大的人是我刚进入阿里时遇到的一位技术大佬,他的技术视野、格局和胸怀给我非常大的感触。

他和我说,我们做技术的,既要保持对技术的好奇,多一些理想主义和对未来的思考,多看一些国际上先进的技术和理念,同时也要能脚踏实地的把眼前能够使用的技术进行落地,产生业务价值,这就是仰望星空,脚踏实地。

他还告诉我,在阿里云大家都是跑接力棒的,在他还能跑的时候他会就拼命往前跑,往前折腾,在发现自己已经跑不动前要找到更强的人接这一棒,我想这就是阿里云的传承精神吧。

LiveVideoStack:后疫情时代,您对音视频服务/技术有了哪些新的理解?

邹娟:后疫情时代,我对音视频技术和服务,有两个方面的理解,第一个是音视频技术迅速为企业所熟悉和需要,而音视频云服务将成为云计算的基础设施,音视频技术和服务已经不再是某些行业的特殊需求,而是全行业的基础需求

第二个是在疫情期间,社会及各种企业对在线服务,尤其是云服务的接受程度有了显著提高。那么在后疫情时代,很多客户希望能快速沉淀在线业务,尤其是与音视频相关的如视频会议、在线教育、直播等业务形式,这就催生了对各种视频解决方案和工具的需求,可以快速降低客户使用视频技术和服务的门槛,让客户把宝贵的时间花在自己的业务场景上。

从另一个方向看,相当于整个时代对内容和交互方式有了新的要求,而这也正是我们音视频技术人的机会,一个可能改变时代的机会。

LiveVideoStack:以5G为依托的视频云媒体生产具体是一个什么概念,您如何看待云剪辑当下的具体应用状况?

邹娟:5G会带来高带宽和低延时,那么人们对视频内容的质量要求将进一步提升。因此在这个基础上,视频云媒体生产的内容和制作方式本身将会更加专业,画面也更加清晰,超低延时也会给媒体生产的体验和交互带来非常大的变化,“所见即所得”的生产方式将成为标配。

云剪辑当下在具体应用时,也很明显地可以看到两种需求,这跟上面的趋势也相互映证:第一个是对剪辑成片的专业度、剪辑工具的功能丰富度、和内容质量的要求越来越高;第二个是全民参与内容生产,对剪辑的门槛要求越来越低。

编辑:Coco Liang

LiveVideoStackCon 2020 北京

2020年10月31日-11月1日

点击【阅读原文】了解更多详细信息

猜你喜欢

转载自blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/109252184