第 17 回 MSU 世界エンコーダ コンペティションのフル HD 10 ビット トラック結果を解釈する多次元の評価指標

超高解像度ビデオの重要な部分。

01 多くの主要指標で第 1 位にランクされ、帯域幅を 48% 節約

最近、第 17 回 MSU 世界エンコーダー コンペティションのフル HD 10 ビット トラックの結果が発表されました。Ali が自社開発した H.266/VVC エンコーダー Ali266 が、このトラックで最も効率的な 1fps グレードを獲得しました。2 つのチャンピオン、競合ベンチマーク エンコーダ x265 と比較して、48% 帯域幅を節約でき、実質的に帯域幅を削減できます。超高精細ビデオの敷居を高め、その普及を促進します。

MSU World Coder Competitionとは、ロモノーソフ・モスクワ州立大学(MSU)が主催し、世界中の大手企業、学術機関、オープンソースコミュニティ、個人を対象としたコーディングコンテストで、2005年から毎年開催され、現在まで開催されています。セッション。

過去 17 回のコンテストで、参加するエンコーダの総数は増加し続け、MSU ワールド エンコーダ コンペティションはビデオ エンコードおよびデコードの分野で最も影響力のあるトップレベルの権威あるイベントとなり、多くの著名なテクノロジー企業の参加を集めています。 Google、Intel、Netflix など、参加しているエンコーダはすべて幅広い実用性を備えており、業界の発展の翼となっています。

この MSU コンテストには合計 21 のエンコーダーが参加し、10 ビット トラックが初めて特別にセットアップされました。第16回フルHDトラックチャンピオンシップと主観トラックチャンピオンシップで8回の優勝を果たしたAli266は、今大会では10ビットトラックの中で最も圧縮率の高い1fpsスピードギアに出場し、SSIMとPSNRの両方を達成しました。この指標でNo.1を達成しました。 /span>

参加しているエンコーダの圧縮パフォーマンスを複数の品質評価指標に基づいて総合的に評価するために、MSU コンペティションではPSNR、SSIM、VMAFを使用しました。およびその他の客観的な品質評価指標。

このうち、SSIM インデックスは、明るさ、コントラスト、構造情報の 3 つの側面から歪んだ画像の視覚的な品質を推定します。元のビデオと比較する 歪んだビデオの構造との類似性、ビデオの品質を評価するための知覚構造の損傷を研究することで、人間の目の主観的特性をよりよく反映できるため、常に MSU がメインとなってきました。主催者が定める評価指標。

具体的には、YUV (6:1:1)-SSIM インジケーターによってランク付けされます:

1位:アリババ Ali266、テンセント Tencent266 v0.2.1、Tencent266 v0.2.2

上の図では、縦軸は参加しているエンコーダ、横軸は同じ SSIM 品質での基準エンコーダ x265 に対する各エンコーダの出力ファイルの平均サイズです。

ヒストグラムが短いほど、エンコーダーによって出力されるファイルは小さくなり、圧縮率が高くなり、エンコーダーのパフォーマンスが向上します。この図は、同じ YUV (6:1:1)-SSIM 画質の下で、Ali266 がリファレンス エンコーダ x265 と比較して 48% ファイルを節約していることを示しています。サイズ。

YUV (6:1:1)-PSNR (平均 MSE) 指標によるランク付け:

1位:テンセント Tencent266 v0.2.1、アリババ Ali266

この図は、同じ YUV (6:1:1)-PSNR (平均 MSE) 画質の下で、Ali266 はリファレンス エンコーダ x265 よりも 43% 節約していることを示しています。 /span> のサイズ。

世界中の多くのプログラマーを包括的、公正、公平にレビューすることは簡単な作業ではありません。今年の 10 ビット トラック評価を例にとると、2022 年 6 月 1 日に参加エンコーダの一般収集が行われてから、2023 年 9 月 25 日の評価結果が公開されるまで、約 16 か月かかりました。

時間と労力のかかるプロセスの背後には、マルチメディア情報の送信と処理におけるビデオコーディング技術の基本的かつ重要な役割があります。

02 4K、60 フレーム、10 ビット、完全なリンクの最後のリンクを完了

デジタルビデオは基本的に連続した画像フレームであり、1 フレームの画像サイズは大きくありませんが、一般に 1 秒あたり少なくとも 24 フレームの画像が必要であり、蓄積すると非常に大きなスペースを占有します。

現在、超高精細映像のトレンドは止まらず、映像の高解像度、高フレームレート、高ビット深度がもたらす究極の衝撃体験を楽しむ人が増えています。

4K超高精細ビデオを例にとると、解像度3840×2160ピクセル、フレームレート60(つまり、1秒あたり60枚の画像)の場合、非圧縮の1秒ビデオのデータ量は119億4000万ビットを超えます( 3840×2160ピクセル)/フレーム×24ビット/ピクセル×60フレーム/秒)。

ビデオ エンコーダは、元のビデオから冗長な情報を削除してビデオを「スリム化」できます。夏のヒット作「風神 Part 1: Chao Ge Fengyun」を例に挙げると、この映画の長さは 148 分、合計 8,900 秒です。ハイビジョン画質の最高画質である4K、24フレーム/秒、深度10ビットを選択した場合、フィルム全体のデータ量は7,000GBを超えます。これほど膨大な量のデータを圧縮せずに直接送信して保存することはほとんど不可能です。

エンコーダは画質を確保することを前提に、元の映像のデータ量を数100分の1、場合によっては数1000分の1まで圧縮することができます。

したがって、ビデオエンコード技術によりビデオの保存と再生が可能になります。

推定によると、広く使用されている前世代の標準オープンソース エンコーダの x265 Veryslow ギアを使用してエンコードされた「Feng Shen」の完全な 4K ファイル サイズは約 3 GB ですが、Ali266 低速ギアを使用すると、これに比べて 1.8 GB のトラフィックを節約できます。元のソリューションに比べて、コード率を最大 64 % 節約できます。

4K、60 フレーム、10 ビットが徐々に業界で認められた超高解像度ビデオ規格になっていることは疑いの余地がありません。今年の MSU 世界エンコーダ コンペティションでは、初めて 10 ビット トラックが設定されました。では、10bit は私たちの生活に具体的に何をもたらすのでしょうか?

最も直感的な方法で説明すると、10 ビットでは、色がより繊細なグラデーション変化を示すことができます。これは、各カラー チャネルのカラー レベルが 8 ビットから 256 レベルであるためです (現在、8 ビットを使用しているほとんどのディスプレイ デバイスは、突然、 10 ビット レベル 1024 に増加しました。これは、色のグラデーションと変化に関して並外れた繊細さを表現できることを意味します。

以下の夕日の写真では、写真の上半分が 8 ビットのビット深度で表されており、太陽の内側からオレンジ色から黄色への遷移に明らかな「欠陥」現象があることがわかります。外側、下半分は10ビットで表現されており、色の移り変わりが非常に自然です。

この比較画像はインターネットからのものです

国の政策が発展し続け、市場の需要が拡大し続ける中、ビデオ超高解像度業界は急成長しています。高解像度、高フレームレート、広い色域、広いダイナミックレンジなどの超高精細度ビデオの特性は、色の細かさとコントラストを完全に表示し、消費者に真のライブビデオ体験をもたらすために、高いビット深度に適合する必要があります。したがって、高ビット深度は、超高解像度ビデオに不可欠かつ重要な機能およびトレンドの 1 つです。

10 ビット カラーを真に楽しむには、10 ビット表示をサポートする画面を備えているだけでは十分ではなく、ビデオの収集、処理、エンコード、保存または送信、デコード、および表示のリンク全体が 10 ビットで処理される必要があります。少し。

10 ビット エンコードと 10 ビット デコードは、処理リンク全体において 2 つの重要なリンクであることがわかります。 前世代の H.266/VVC 標準では、エントリーレベル レベルでは 8 ビットのビット深度のみがサポートされ、より高い拡張レベルでは 10 ビットのビット深度をサポートする必要がありました。ほとんどのコーデック デバイスでは 10 ビットのビット深度ビデオはサポートされていません。

H.266/VVC は 2017 年 10 月に技術募集を行った際、広色域と広ダイナミックレンジのビデオ (つまり HDR/WCG) を主なアプリケーションとみなしていたため、そのエントリーレベル (Main10 プロファイル) は 10 ビットビットをサポートしています。 -深度エンコーディング標準は、10 ビットのビット深度ビデオの使いやすさを大幅に向上させ、ビデオ業界を高ビット深度レベルのサポートに合わせて調整します。

今回、Ali266 エンコーダが 10 ビット トラックで賞を受賞したことは、Ali266 が 10 ビット エンコードに完全に対応し、フル リンクで 10 ビットのキー リンクを完成していることも証明しており、開発トレンドと一致しています。超高精細映像技術を駆使し、消費者に真の現場映像体験を提供する新たなソリューションを提供します。

03 努力の継続、Ali266の自己進化

Ali266 は、新世代の国際ビデオ標準 H.266/VVC を Alibaba Damo Academy が実装したコーデックです。高い圧縮パフォーマンス、高解像度のリアルタイム エンコード速度、完全なリアルタイム高解像度エンコードおよびデコード機能およびその他の機能。 Ali266 コーデックの発表により、H.266/VVC 標準のエンドツーエンドのエコシステムがよりオープンになり、業界に新世代のビデオ コーディングおよびデコーディング ソリューションが提供されました。

エンコード側では、Ali266 は動き補償時間領域フィルタリングなどのさまざまなエンコード アルゴリズムを実装することで、エンコード品質と圧縮効率を向上させます。 、GOP サイズの意思決定、シーン切り替え検出、画面コンテンツ検出、コード レート制御テクノロジなどに自動的に適応します。

一方、Ali266 は数百の高速エンコード アルゴリズムをカバーし、マルチスレッド テクノロジ、アセンブリ命令、メモリ アクセス効率などのエンジニアリング最適化手法と連携して、圧縮パフォーマンスのコストを最小限に抑えながらエンコード速度を大幅に向上させます。

デコード側では、Ali266 が自社開発したデコーダ アーキテクチャ、データ構造、メモリの再利用可能な設計が、マルチコアの並列処理とアセンブリを通じて最適化されています。 、メモリ使用量とメモリアクセス効率の最適化、およびデコード速度を向上させるための一連のエンジニアリングとアルゴリズムの最適化手法により、Android、iOS、Linux、MacOS、Windows、およびその他のプラットフォームと完全に互換性があります。特に、Ali266 デコーダを統合した中~低価格帯の携帯電話では、最新の H.266/VVC ビデオやライブ ブロードキャストを鮮明かつスムーズに視聴することもでき、モバイル インターネット時代のユーザーのニーズをよりよく満たします。

さらに、Ali266 は商用化ソフトウェアのニーズを十分に考慮しています。何千ものハイエンド、ハイエンドの大規模なテストを経て、さまざまなプラットフォーム上のローエンド デバイスで、Ali266 デコーダの堅牢性、安定性、商用利用可能性が検証されています。 MSU 世界エンコーダー コンペティションでの連続受賞は、Ali266 が業界をリードするソフトウェア エンコードおよびデコードのパフォーマンスを備えており、超高解像度ビデオ業界でのアプリケーションの可能性を実証していることを示しています。

2022 年 1 月に、Ali266 が Youku で正式に開始され、Youku は当時業界初の実用的な H.266/VVC 実装プロジェクトとなりました。推定によると、Youku が Ali266 の使用を安定して開始して以来、ビット レートは元の H.265/HEVC ソリューションと比較して最大 40%40% 節約されました。 ; 体感的には、遅延率は 50% 減少し、安定性は 99.95%

ビデオ コーデック標準のアップグレードによってもたらされる技術的恩恵を最大限に発揮し、業界に低コストで高品質のビデオ ソリューションを提供するために、Alibaba Cloud と DAMO Academy はビデオ オン デマンド サービスに対する Ali266 の完全サポートを実装しました。この動きは、顧客が帯域幅コストを大幅に節約し、再生エクスペリエンスを向上させ、ビデオ視聴エクスペリエンスと帯域幅トラフィックの間の競合を解決するのにさらに役立ちます。

Alibaba Cloud ビデオ オン デマンドは、主に 2 つの側面を含む H.266/VVC をサポートしています。一方では、Alibaba Cloud Video Cloud は、H.266/VVC ビデオ ストリームへのビデオのトランスコーディングをサポートし、mp4、ts、hls などの主流コンテナをサポートして、H.266/VVC ビデオ ストリームの保存、送信、配信を容易にします。 。一方、Alibaba Cloud Player は、H.266/VVC エンコード プロトコル ビデオ ストリームと完全に互換性のある再生ソリューションを提供し、顧客はスムーズでクリアな再生体験を楽しむことができます。

コーディング効果の表示の詳細については、https://retina.aliyun.com/#/Ali266 をクリックしてください。

今後、Ali266 は 10 ビット HDR、超高解像度 4K ~ 8K、高フレーム レート 60fps ~ 120fps、自由な視野角などの最新の技術開発トレンドを綿密にフォローし、オーディオおよびビデオ業界と緊密に統合し、オンデマンド、ライブ ブロードキャスト、RTC、その他のシナリオでの新しいビジネスの探索 可能性のあるアプリケーション、および 5G、人工知能、仮想現実、その他のテクノロジーとの密接な統合により、多数の新しいシナリオ、新しいアプリケーション、新しいモデルが生み出され、視聴者は、より極端なオーディオビジュアル体験と、より革新的なインタラクティブなゲームプレイを体験できます。

おすすめ

転載: blog.csdn.net/VideoCloudTech/article/details/133992722