タオバオでは、オーディオおよびビデオ技術チームがコンテンツ電子商取引においてどのような問題を解決しましたか?




近年、コンテンツ電子商取引は人々の生活に完全に組み込まれているようです。 私たちは暇なときに携帯電話を取り出し、電子商取引プラットフォームのライブブロードキャストルームからお気に入りの商品を注文するのが習慣になっています。または短いビデオリンク。

高品質の商品、手頃な価格、素晴らしい景観、興味深いコンテンツ出力はすべて非常に重要な影響要因ですが、コンテンツ電子商取引には、画質が高精細であることと、再生がスムーズであるという 2 つの前提にも基づいている必要があります。これまで、多くの企業やアンカーは生放送室の画質の悪さに悩み、高品質の放送を実現する方法を理解していませんでした。

一連の最先端のオーディオおよびビデオ技術のサポートにより、タオバオのオーディオおよびビデオ技術チームはこの問題を解決しました。



序文


下の写真は、ライブ ブロードキャスト ルームでの画質体験を完璧にした例です。アンカーは、チームが独自に開発した一連のオーディオおよびビデオ テクノロジ (ビデオを含む) を通じて、超低ビット レート 1080p 高解像度のライブ ブロードキャストを実現しました。エンコード、ビデオエンハンスメント処理、ビデオ品質評価など:



ショートビデオの画質体験を完璧にするケースもあり、チームが独自に開発した上記のオーディオおよびビデオ技術を通じて、ビデオの鮮明さと質感の詳細が大幅に向上しました。


上記の場合、変換後の画像の質感が「標準解像度」から「超解像度」に飛躍的に向上し、ポートレートの肌の色がより自然になり、さらには製品の色がより正確になりました。肉眼で認識できるこの改善は、業界をリードするオーディオとビデオのエクスペリエンス、特にビデオの品質と滑らかさを生み出すチームが提供するオーディオとビデオの技術的能力によるものです。


しかし、技術的な観点から見ると、ビデオ コンテンツの問題を分析して特定し、目的の変換方法を見つける方法は依然として複雑なプロセスです。これは、オーディオおよびビデオ技術の過去と現在から始まります。


インターネットビデオのトレンド


今日、デジタル TV テクノロジーは私たちの視聴覚体験を十分に満たすことができます。テクノロジーの進歩に伴い、デジタル TV がもたらす体験をアップグレードする過程で、人々はテープやビデオテープなどの記憶メディアに別れを告げ、VCD、DVD、そして現在ではブルーレイ (Blu-ray) に移行しました。 -2 (H.262)、H.264/AVC、H.265/HEVC、H266/VVC などの対応する MPEG ビデオ コーディングおよび圧縮テクノロジを使用して、画質を向上させ、ストレージと帯域幅のコストを効果的に節約します。

ラジオやテレビのビデオ技術は非常に専門的であり、制作コストとサイクルも非常に高く、設定、撮影、処理、編集、エンコード、送信、通信などの完全で成熟した産業リンクが含まれています。長期にわたる高品質な消費体験は、実際に消費者に強い心を与えます。ラジオとテレビは、特に画質の点で、プロフェッショナリズムと質の高い体験を代表するものです。


2010 年代には、ビデオのインターネット化の明らかな傾向があり、ビデオの制作と共有は従来のラジオやテレビからインターネットや OTT に大規模に移行しました。インターネットでは、長いビデオ、中程度のビデオ、ライブ ブロードキャスト、および短いビデオ関連のビジネスが急成長しています。インターネット企業にとって、技術的な観点から見ると、ビデオがインターネット化され、エクスペリエンスが向上すればするほど、販売者や C エンド ユーザーを引き付けることができます。コンテンツの電子商取引、または電子商取引のコンテンツも、多くの大手インターネット企業にとって焦点となる戦いとなっています。


インターネット ビデオの制作と共有にかかるコストは非常に低く、C エンド ユーザーにとってはほぼゼロです。優れたビデオのインターネット化をサポートするには、インターネット プラットフォーム上で以前のラジオおよびテレビ リンクの機能を実現し、それによってラジオおよびテレビ レベルのビデオ再生エクスペリエンスを提供するという、膨大なエンジニアリングおよび技術的作業が必要になります。


タオバオのオーディオとビデオ技術


タオバオの実際のコンテンツ ビジネスでは、ビデオ コンテンツの供給と配信を含むビデオ ビジネス ライフ サイクル全体で、ビデオ制作、ビデオ処理、ビデオ送信、ビデオ プレゼンテーション、オーディオにおける包括的なエンドツーエンドのフルリンク機能が必要です。このようにして、ビデオ全体の高画質と滑らかさを確保できます。高画質化やスムーズな再生など、消費者の映像品質に対する要求はますます高まっており、制作から配信までのトータルコストのコントロールも求められています。


これは、プラットフォームのビデオ処理テクノロジーの進化が、絶え間なく変化する市場の需要と、ビジネス量の爆発的な成長によってもたらされるさまざまな課題に直面しなければならないことを意味します。この目的のために、チームはタオバオ ライブタブ 2 (ゴー アラウンド)ホームページの情報フローなどのコンテンツ ビジネスのソリューション全体をサポートし、継続的かつ高速なイテレーションを維持します。


ビデオ エンコーダ、ビデオ エンハンスメント ソリューション、美容/美容/メイクアップ、非参照ビデオ品質評価モデルおよびメディア処理システムを含む上記のテクノロジーに関する的を絞った自己研究を通じて、また、低遅延伝送ネットワーク GRTN へのアクセスを通じて、基礎となるライブ ブロードキャストやホームページなどのコンテンツ サービスのコア テクノロジーを利用して、業界をリードするオーディオおよびビデオ エクスペリエンス、特にビデオの品質と流暢さを実現します。


継続的な技術の磨きとアルゴリズムの革新を通じて、タオバオのコンテンツビジネスを高品質かつ低コストで強化し、タオバオのコンテンツ戦略をサポートすることに努めており、蓄積されたプラットフォーム技術と製品機能はグループの他の事業にも再利用できます。長年にわたって蓄積されたこれらの技術力は、多くの権威ある国際的なオーディオおよびビデオコアテクノロジーコンペティションでも賞を受賞しています。


技術的な全体像


オーディオおよびビデオ テクノロジーに含まれる技術ドメインには、制作から配信、最終消費まで、プラットフォーム上のすべてのオーディオおよびビデオ ストリームのライフ サイクル全体が含まれます。次の技術マップに示すように、いくつかのコア テクノロジー モジュールが含まれています。

オーディオおよびビデオ技術の全体像

注: このテクノロジー マップには、関連する多くの技術ソリューションがリストされていますが、すべてのテクノロジーがビジネスに採用されているわけではありません。


▐動画制作  


映像コンテンツの品質を向上させるために、コンテンツ制作者は必然的にコンテンツそのものを「編集」することになります。編集方法としては、ポートレート美化機能による動画内のキャラクターの美しさの向上、前処理機能によるコンテンツ自体の鮮明さの向上、様式化されたフィルターによる動画コンテンツの雰囲気の向上、および事前定義された編集テンプレートに基づいて生成する さまざまなスタイルのビデオなど。編集効果を向上させ、編集機能を充実させ、使用の敷居を下げるには、主要なビデオ制作ソフトウェアが最適化を続ける方向にあります。


その中で、ポートレート美化の編集機能は、美容、美容、美白、美容メイクアップ、ボディビューティーを含む 5 つのサブ機能をユーザーに明らかにします。ポートレート美化効果をサポートする基礎となるオペレーターには、顔、人体などの 2D から 3D の視覚アルゴリズムが含まれますが、これらに限定されません。すべてのアルゴリズムは、モバイル端末上のビデオのリアルタイム処理を必要とします。


基礎となるオペレーターの効果を改善および最適化する一方で、一部のシナリオでは、リアルタイム パフォーマンスやパフォーマンスに密接に関連する発熱などの要素を考慮する必要があります。オペレーターの配置と共同最適化、さまざまな端末 (iOS、Android、PC) とさまざまなコンピューティング能力プラットフォーム (NPU、GPU、CPU) の適応も、ポートレート美化の焦点です。


生成 AI テクノロジーの爆発的な普及により、AIGC は PGC や UGC に次ぐ新しいコンテンツ制作手法となりました。ただし、生成されたコンテンツの豊かさと安定性のバランスをどのように取るかは、AIGC テクノロジーを活用したビデオ制作の実装における大きな課題です。


▐ビデオ処理_  


コンテンツ制作者が制作したショートビデオや生放送シーンなどの映像コンテンツは、サーバーにアップロードされた後、最終的にエンドユーザーに配信されるまでに、画質の向上やビットレートの低減などの一連の処理を経る必要があります。 . 私たちはそれをTMPS(タオバオメディア処理システム)と呼んでいます。


TMPS は主に 3 つのステップで構成されます。

1 つ目は、ソース コンテンツをデコードすることです。ソース コンテンツは、サポートされている画像形式を含む、さまざまなメディア形式およびさまざまなオーディオおよびビデオのコーディング標準と互換性がある必要があります。


次に、チームが独自に開発した STaoVideo ビデオ強化ソリューションを使用して、デコードされたコンテンツを強化して、ノイズ除去、色、ディテール、輝度強化、超解像度、スーパーフレーム、HDR などの手段を含む画質エクスペリエンスを向上させます。従来の手法とディープラーニング手法の両方。STaoVideo は、ソース ビデオ コンテンツの特性と人気に基づいてさまざまなエンハンスメント オペレーターを自動的に選択し、限られた計算能力コストの下で画質向上の効果を最大化します。


最後のステップは、タオバオのコンテンツ テクノロジー チームが自社開発した S265 および S266 エンコーダを含む、より効率的なエンコーダを使用して再エンコードすることです。これにより、画質を大幅に低下させずに圧縮効率を向上させ、トラフィック コストを削減します。TMPS は、解像度の異なる複数のストリームの同時トランスコーディングをサポートします。高解像度および高ビットレートのストリームは、メインストリーム ユーザーの画質体験を確保するために使用され、低解像度および低ビットレートのストリームは、ローエンド デバイスとの互換性を確保するために使用されます。そして弱いネットワーク。


▐ビデオ送信  


从直播内容生产到用户在直播间看到,需要经过一个复杂的CDN传输网络,传统的RTMP和HLS协议延时较大,随着5G的兴起,出现了连麦、直播答题等低延时内容形式,传统协议已经无法完全满足业务诉求。因此,淘宝和阿里云一起,建立了通信、直播二网合一的低延时传输网GRTN,实现了全链路RTC传输。配合CDN的基础设施,淘宝从0到1建设了RTC流媒体传输协议,在主播推流侧和手淘播放侧对GRTN做了率先的业务实践,成功落地淘宝直播且实现了全量覆盖。


淘宝直播的视频传输方面实现了1秒内的端到端时延,同时也可以快速满足淘宝不断涌现的业务形态对音视频媒体传输的底层诉求,比如《中国新主播2023》大赛的“多人连麦PK”活动。


GRTN架构示意图


针对直播和短视频体验优化需求,研发基于弱网分类的带宽预测算法,结合实时画质评价实现上行推流分辨率决策,并优化下行ABR算法实现低延时直播和点播业务的自适应切流,通过拥塞控制,预加载等算法优化Qos,实现秒开首帧时间减少200ms,卡顿降低50%以上。


当前还在探索错误隐藏、丢包重传、平滑发送、时域分层等算法来提升用户体验。


  视频呈现


随着淘宝内容化进程加深,以及用户对于内容“高清、好看、好玩”的追求,淘宝也在探索新的媒体形态,出现了直播连麦、在线答题、语音播报以及游戏直播等新的内容形式,需要以良好的体验来承接新能力和新用户。

首先,对播放器进行架构升级,通过优化播放逻辑、提升硬解覆盖率以及通过性能和网络建立自适应选流/切流能力,优化在中低端手机上的卡顿和发热等问题;通过支持播放侧超分,后处理增强等方式有效提高用户在弱网下的清晰度。

其次,通过支持VR/AR以及HDR视频播放,进一步提升视频呈现方式。端侧互动能力也在持续建设,通过更多的道具和互动玩法,比如遮脸合拍等,让用户感觉更好玩更愿意参与其中。

  音频端到端


声音是传递信息的重要媒介,但淘宝直播环境和设备各种各样,在直播间经常混杂各类的噪声影响用户听感,在连麦场景下,则易产生回声和啸叫等问题;主播往往还希望有背景音乐,变声,音效等玩法;内容化主播还希望达到类似演唱会的音质效果。如何利用技术手段,使用户获得“声”临其境的视听感受,成为了一个重要的任务。


内容技术团队从音频采集、前处理、编解码、传输、播放的全链路入手优化直播音质体验,自研3A算法SDK(回声消除、自适应降噪、自动增益控制),较好的满足了前处理需求,音频子系统支撑了连麦合流功能,拥有弱网抵抗,音画同步等能力;针对无参考音频质量评价的需求,采用机器学习方法实现了MD-AQA音质评价模型,用于大盘音质监控,实现音质处理和评价间的闭环。


音视频技术在淘天的实践

随着整个工业界在音视频领域的投入的扩大和整体技术水位的提升以及淘宝对于用户体验、包括画质方面愈发重视,我们也对一些核心的技术模块进行了深度自研和持续迭代打磨,尤其是在淘宝直播和短视频(包括逛逛)的重要场景取得了较好的提升体验且降低成本的效果。


在如下的示意图中可见,无论是直播还是短视频的处理,都离不开视频增强、处理和视频编码技术,所不同的是两个场景对实时性的要求不同。同时,为追求高画质呈现体验,整个端到端链路中的所有环节的失真,甚至包含画质源本身的低画质都需要被较好的考虑和量化,因此,无参考考的质量评价在衡量画质体验的过程中也至关重要。视频增强,视频编码和无参视频质量评价是保障视频画质的三个重要技术方向。



  视频增强


在直播和短视频中,我们都需要关注画质,致力于为用户提供最好的画质体验。我们建设了STVideo视频增强方案,通过不同的算子针对性增强画质。


直播更侧重在弥补摄像头成像不足,针对移动端摄像头噪声偏大的问题,我们上线了噪声去除算子,针对低端色彩不足的问题,我们提供了色彩增强的算法供用户使用。短视频主要通过云端算子在转码过程中对视频进行增强处理,这其中包括了差异化的智美高清和普惠高清算子,分别针对高热视频和大盘视频提升画质并降低转码过程中的算力成本开销。对于低分辨率视频进一步采用超分算法提升分辨率。


团队既关注业务和人眼主观体验,同时关注业界进展,积极探索能够提升客观指标的方法。团队同学在日常业务研发中探索出的新方法:渐进式训练的两阶段视频恢复方法。在2022年CVPR NTIRE比赛,在视频超分与质量增强比赛的三个赛道获得两个赛道冠军一个赛道亚军。CVPR NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing)是全球图像视频增强方面的顶级竞赛。继在MSU世界编码器比赛夺魁后,团队再次在音视频的核心方向的权威比赛中折桂。


比赛云集了国内外十几支参赛团队,包括腾讯、字节、华为等知名科技企业,中科院、北大、港中文、ETH等科研机构都有参赛,其中很多比赛者都有多年的参赛经验。经过激烈的角逐,团队最终取得了两冠一亚的成绩。


CVPR NTIRE 2022视频超分与增强比赛排行榜


面向未来,我们将为不同的业务、场景的视频,提供更加细分、差异化的视频增强手段:

  1. 针对中低画质视频,画面模糊是常见问题,为此我们需要提供强去模糊模型,联动MD-VQA画质分,自适应地选定去模糊的强度、区域,实现多场景下的通用去模糊;

  2. 针对以人像为主的视频,增加人像区域的注意力机制,引导模型对人像区域增强生成能力,同时约束人脸区域保持自然观感,实现低画质人像视频到高画质人像视频的跃迁(见下图);

  3. 针对画质还不错,但色彩、亮度不足的视频,提供定制化色彩亮度增强能力,进一步提升画面观感;

  4. 针对直播场景,我们会根据机型提供提供更加丰富的画质增强能力,包括色彩亮度提升、画面通透度提升能力。


  视频编码与传输


随着互联网内容化的兴起,特别是视频化和直播的流行,视频编码成为业务的核心基础技术之一,未经压缩的高清视频体积巨大,不利于网络传输和存储。


自从从20世纪90年代初以来,国际通信联盟ITU-T VCEG以及国际标准化组织ISO/IEC MPEG两大组织,分别或共同发布了数代视频编解码标准,目前业界使用最多的是H.264 /AVC以及H.265/HEVC。前者在数字电视,互联网,视频会议等服务中广泛使用,后者则对高清超高清视频和HDR视频的普及做出了重要的贡献。


H.266(VVC) 是最新颁布国际视频编码标准,其第一版于 2020 年 7 月制定完成,相比上一代标准 可以在相同主观质量条件下将视频带宽降低 40%,有着巨大 的应用前景。

【业务】S265应用
淘宝内容技术团队自研的S265编码器是对H.265/HEVC标准的高效实现,经过多年的产品化打磨,已全面应用于包括淘宝直播、首页信息流、淘宝逛逛在内的淘宝内容业务,并以较低的带宽和资源消耗实现高清画质编码,对比前一代标准,画质相等的前提下降低码率40%以上,经过S265编码器压缩后,普通手机在3G网络也可顺滑观看1080p高画质,最新发布的手机亦可支持4k 30FPS超高清直播。

【比赛】S265、S266
基于S265的核心技术,团队还开发了H.266/VVC标准编码器S266,两个编码器分别参加了MSU 2020和2021连续两届比赛,取得多个赛道第一。

在MSU2020 全高清客观性能赛道上,S265 获得了两项PSNR指标第一;在MSU2021 全高清客观性能赛道上,S266更是获得14项评测指标中的8项第一;在主观性能赛道,S266 在16款参赛编码器中以大比分优势获得第一,与MSU官方指定的基准编码器x265相同的主观质量下,带宽节省了71%之多,S266也成为两项比赛唯一一个所有指标都进入前三的编码器。

MSU(莫斯科国立大学)世界视频编码器大赛是视频编码领域最权威的全球性顶级赛事,迄今已由MSU的Graphics & Media Lab连续举办了十八届,其评测报告被业界广泛认可,吸引了包括Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外知名科技企业参与,代表了行业发展的风向标。


MSU 2020 Main FullHD 1 fps YUV-PSNR排名


MSU 2021 Main FullHD 1 fps YUV-PSNR排名


S265编码器在码率控制、快速算法、编码工具实现、工程加速几个方面进行了创新,实现对X265编码器的超越,在1fps速度档位下YUV-PSNR指标领先35%。


S266在S265编码器的基础上,进一步在符合VVC标准的范畴下进行优化。主要的工作包括针对新的工具集的适配,比如让S265中的很多优化手段延伸到了VVC中更大的编码单元块(CTU),更复杂多变的块划分结构,不一样的运动矢量估计等新的编码工具;同时引入了预分析、自适应量化、时域运动滤波等技术来提升编码效率;且在编码过程中使用更多的快速算法减少整体计算复杂度,通过汇编优化让密集计算模块提速,最后采用帧、CTU行、块级并行减少整体编码时长,使得S266编码器相比H.266/VVC的参考软件VTM11有了极大的速度提升,且可运行在1fps速度档位(大规模的VVC离线编码应用成为可能)。


S266提供了对比H.265开源软件X265 very slow档50%的编码效率提升(同等画质下,码率减少50%),夺得此次MSU比赛中PSNR等多个指标的第一名。


【业务】S266落地

通过MSU的权威认证,展现了S266强大的压缩效率,但要推动VVC标准的商用,路还很长。这是因为VVC作为HEVC的下一代编码标准,引入了诸多新的编码工具,这些工具一方面带来了压缩效率的提升,同时也对算力提出了更高要求,同时在当前手机芯片不能支持H.266硬件解码的前提下,软件解码的发热,卡顿等问题都会较大的制约,淘宝内容技术团队一直致力于优化S266编解码器的算力。


针对移动手机芯片的特性,团队进行了多个维度的优化,包括多核并行、ARM汇编、内存访问效率、内存占用大小等,低端手机仅使用2核就可以解码720p视频,中高端手机可支持1080p 实时解码。


针对手淘稳定性、内存占用、包大小等方面的需求,还进行了数万条异常码流的严格测试确保稳定性;并采用固定内存管理,避免重复分配和释放,优化参考帧管理策略,与编码器配合减少参考缓存帧数量,实现较低的内存占用;在包大小方面也进行了极致的裁剪,使得手淘包大小增量在800k以内。


随着编解码器的优化逐渐成熟以及设备算力的逐步提升,2023年团队开始VVC在淘宝的落地。


首先淘宝媒体处理系统TMPS嵌入了S266编码插件,并支持ISO/IEC MP4容器的封装和解封装,支持与智美高清结合的转码模板,实现编码和增强的强强结合。


其次淘宝播放器适配S266解码插件,针对seek,上下滑,预加载等场景进行优化,并兼容播放降级逻辑,支持多种格式和分辨率的选流逻辑,实现播放和解码的内存解耦。在内容总线和业务侧,还实现了多流转码和播控下发逻辑。


在今年的双十一,淘宝逛逛用户将能观看基于S266技术的VVC高清视频,享受流畅的播放体验。


为了满足淘宝直播对实时编码的需求,团队还研发了S266 快速档(fast档),通过挑选高性价比工具,优化块划分,模式选择,滤波等算法,引入AVX512指令集,进一步提高帧级和行级并行度,使得S266在个人PC上能达到1080p实时编码。直播全链路也将支持VVC over RTMP/RTP的推流,传输,播放,用户不久将可在淘宝直播中观看基于VVC技术的直播。


【传输】

在视频传输侧,码率自适应算法(ABR)根据用户网络条件以及缓存等信息,自适应地调整播放分辨率,达到画质和卡顿QOE的平衡。淘宝内容技术团队根据直播低延时的特点,增加源端码率传递通道实时准确获取码流信息,并通过带宽探测实时获取用户带宽信息,改进ABR网络结构和QOE状态模型,考虑直播跳帧和快慢播面临的Reward对齐问题,提出自创的ABR算法,首次实现低延时直播下的自适应切流,将直播百卡次数降低27%。


在短视频选流上,根据历史切片的下载时长,结合传输层信息以及网络类型来估算带宽,经过大量AB实验确定最佳参数,并解决质量和码率不匹配问题,帮助1080p播放降级率大幅降低。


1080p占比 VS 百秒卡顿率 退出率 VS 卡顿时长


  无参视频质量评价


近年来互联网内容视频化的趋势密不可分,从生活、娱乐到学习,视频都已经成为了很多人获取信息的第一介质。其中,UGC 视频内容几乎占据了整个互联网视频流量中的 70% 到 80%。人们既消费这些 UGC 视频内容,也在创造着自己的「作品」。任何人都可以使用一台手机拍摄、上传短视频,也可以开通自己的直播账号,分享自己的生活。


但 UGC 视频的质量往往是参差不齐的。首先是因为其质量受制于拍摄设备、拍摄环境、拍摄技巧等因素,即使视频内容的制作方极具经验且原始视频质量非常高,一旦经过平台的各种处理、分发环节或是其他用户的二创,消费者在另一端看到的视频效果都有可能打折扣。


在缺乏理想的视频参考源的质量评价场景逐渐成为主流的趋势下,无参考视频质量评价作为质量评价的主要的技术手段,在过去的几年里越来越受到广泛关注。然而,该领域缺乏具备公信力的baseline,没有像传统广电中PSNR, SSIM, VMAF这样的传统指标。并且学术界的UGC视频质量评价研究尚处于起步阶段,没有形成有共识的权威的方向和可供工业界直接应用的标准。


因此,团队基于淘宝直播、Tab2、首页信息流等内容业务,自研了一种针对UGC视频的无参考视频质量评价模型 ——MD-VQA(Multi-Dimensional Video Quality Assessment),综合视频的语义、失真、运动等多维度信息,并进行时空域的融合,来衡量视频绝对质量的高低。在公开的视频质量评价数据集LIVE-WC和YT-UGC+,以及TaoLive(来源于淘宝视频业务,包含3,762个视频,覆盖不同的内容、失真、和质量,并通过专业的主观标注)上,MD-VQA在主流视频质量评价指标SRCC和PLCC上均超过了SOTA(State-Of-The-Art)方法,达到了先进性能。


目前,MD-VQA 已经全面应用于包括淘宝直播、淘宝信息流、淘宝逛逛等淘宝内容业务,「量化」并监控视频业务的大盘画质变化,快速、精准地筛选出不同画质水位的直播间和短视频,帮助提升平台内容画质。以淘宝直播为例,MD-VQA 提供分钟级的在线质量监控能力,能够快速、精准地筛选不同画质水位的直播间,协助线上低画质badcase的挖掘分析,实时提醒主播画质问题方面的瓶颈问题,配合《电商直播高画质开播指南》,提供改进措施,使得淘宝直播主播画质满意度显著提升:在收到过提醒的主播中,75%+希望保持和完善实时提醒服务。


此外,MD-VQA在整个阿里集团内部也在支撑越来越多的画质评价相关业务,比如钉钉直播、ICBU直播和支付宝直播,协助监控视频相关业务的画质体验。相关论文被计算机视觉领域顶级会议IEEE/CVF Computer Vision and Pattern Recognition Conference 2023(CVPR 2023)成功收录。


同时,基于在日常业务的经验积累,团队在MD-VQA的基础上研发了无参考视频质量评价模型TB-VQA,并参加了CVPR NTIRE 2023视频质量评价竞赛,拿下该比赛(唯一赛道)冠军。


本场比赛云集了国内外顶级的几十只参赛队伍,包括字节、快手、网易、小米、Shopee 在内的知名科技企业,以及北京航空航天大学、新加坡南洋理工大学等高校。TB-VQA从 37 支队伍中脱颖而出,在主得分(Main Score)、SRCC(Spearman Rank Order Correlation Coefficient)及 PLCC(Pearson Linear Correlation Coefficient,SRCC 和 PLCC 越高表明与 GT 越接近)三项指标均位居第一。


CVPR NTIRE 2023 视频质量评价比赛排行榜


美颜画质:FACE-VQA&音频质量评价:MD-AQA

除了用于通用场景视频质量评价的MD-VQA模型,我们还研发了针对美颜质量评价的FACE-VQA模型和针对音频质量的MD-AQA模型。FACE-VQA首先检测视频中的人脸,然后根据人们的审美标准,对人脸的肤质、肤色及脸型进行多维度的综合评价。FACE-VQA已经用于美颜算法的迭代和淘宝直播大盘美颜效果的监控,后续会继续提升FACE-VQA的准确度,完善妆容部分对美颜的影响。


针对明确的无参考音频质量评价的需求,MD-AQA从多个维度出发,采用深度CNN自我注意力模型,对噪声,语音连续性,响度,音色四个维度进行评分,并同时预测MOS分。目前MD-AQA已经用于淘宝直播大盘音质的监控,帮助发现和改进音质较好/较差的直播间。


欢迎加入


如果你对音视频的业务感兴趣,可以直接投简历到这个邮箱:[email protected],欢迎一起加入。


¤  拓展阅读  ¤

3DXR技术 |  终端技术 |  音视频技术
服务端技术  |  技术质量 |  数据算法



本文分享自微信公众号 - 大淘宝技术(AlibabaMTT)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

博通宣布终止现有 VMware 合作伙伴计划 deepin-IDE 版本更新,旧貌换新颜 WAVE SUMMIT 迎来第十届,文心一言将有最新披露! 周鸿祎:鸿蒙原生必将成功 GTA 5 完整源代码被公开泄露 Linus:圣诞夜我不看代码,明年再发布新版 Java 工具集 Hutool-5.8.24 发布,一起发发牢骚 Furion 商业化探索:轻舟已过万重山,v4.9.1.15 苹果发布开源多模态大语言模型 Ferret 养乐多公司确认 95 G 数据被泄露
{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4662964/blog/10306637