HUAWEICLOUDメディアChaYong:ビデオAIトランスコーディングにおけるHUAWEICLOUDの技術的実践

要約: ビデオAIトランスコーディングの分野でHuawei Cloud MediaProcessingServiceの技術的手法をいくつか紹介します。

5Gの実装と消費者向け端末の継続的なアップグレードにより、消費者リンクのビデオ品質に対する要件はますます高まっています。消費者に、より明確で、より現実的で、より没入型の視聴体験を提供するために、クラウドビデオ処理テクノロジーもより高い要件を転送します。2022年のLiveVideoStackオンラインオープンクラスでは、Huawei Cloud Media Processing Service R&Dの責任者であるZha Yongが、クラウドでAIテクノロジーを使用して、HuaweiCloudのウルトラ分野での実践的な経験に基づいてビデオ視聴覚体験を向上させるための主要なテクノロジーを詳細に紹介しました。 -高解像度ビデオトランスコーディング。そして、業界がオーディオとビデオのエクスペリエンスをアップグレードするのを支援する方法。

01/超高精細ビデオ産業の発展傾向

ビッグビデオの時代、5G、AI、クラウドテクノロジーの開発により、超高解像度ビデオ業界は急速な発展の時期を迎えました。生産面では、4K / 8K超高精細の制作・放送プラットフォームの構築が加速しており、超高精細テレビの制作・放送モードは常に革新的であることがわかります。現在のウルトラの生産能力-高解像度コンテンツが大幅に改善されました。消費者側では、チップ技術の発達と4K / 8Kテレビや没入型端末の普及に伴い、消費者が超高精細コンテンツを体験できるメディアも常に充実しています。

伝送リンクでは、5Gの高帯域幅と低遅延により、超高精細コンテンツの取得が容易になり、インタラクティブシーンのエクスペリエンスがますます向上しています。処理段階では、クラウドの強力なコンピューティングパワーとAIテクノロジーにより、超高精細コンテンツの究極の圧縮と画質の向上を実現できます。これにより、再生エクスペリエンスを向上させながら、配信と制作のコストを大幅に削減できます。 。さらに、エッジクラウドコンピューティングのテクノロジーと機能により、超高精細ビデオの制作と配信のコストをさらに削減できます。

アプリケーションシナリオでは、超高精細ビデオが徐々にライブ放送、VR、マルチビュー、フリービューなどの分野に発展し、アプリケーションの範囲が徐々に拡大していることがわかります。

一般的に、超高解像度ビデオ業界のインフラストラクチャは徐々に改善されており、アプリケーションシナリオは徐々に成熟しています。

産業の急速な発展は、生態系建設の成熟と密接に関連していることは誰もが知っています。標準的なエコロジー構造とポリシーの観点から、超高解像度ビデオ業界を見てみましょう。

まず第一に、中国は組織レベルで超高精細産業同盟を確立しました。標準に関しては、超高解像度ビデオ業界の発展に関するホワイトペーパーと関連する多くのソフトウェアおよびハードウェア契約もリリースされており、超高解像度ビデオ業界の健全で秩序ある発展をさらに促進しています。ポリシーに関しては、14の州と市が、超高解像度ビデオ業界の発展のための行動計画を発表し、超高解像度業界の消費者体験と業界革新を向上させるためのガイダンスを提供しています。

エコロジーとポリシーの二重の推進力に後押しされて、Chengduの超高解像度ベース、Qingdaoの高解像度ビデオベース、広州のHuaguoshanベースなど、超高解像度プロジェクトの多くの実験ベースが立ち上げられました。 、および馬欄山などのコンテンツベース。さらなる開発。

権威ある機関の予測によると、中国の超高精細ビデオ産業の総額は2022年に4兆元に達し、超高精細ユーザーの総数も2億人に達するでしょう。現在の4K/8K TVは、TVメーカーの主力規格にな​​り、消費者はビデオ品質にますます注目していることがわかります。HDR、高フレームレート、広色域、高色深度、これらのインジケーターは、ターミナルパフォーマンスの新しいセールスポイント。

また、チップ技術の発達に伴い、没入型端末の種類が増え、消費者はよりリアルでリアルに近いビデオ体験を追求するようになり、ビデオ消費体験の向上の時代に直面しています。

超高解像度業界の急速な発展と消費者体験の向上により、クラウドビデオ処理の機会が増えました。まず、現在の超高解像度コンテンツの供給は、ハードウェア開発の速度に追いついていないのです。コンテンツ超高解像度のエクスペリエンスをもたらし、クラウドビデオ処理テクノロジーを使用して解決できます。次に、ビデオはキャプチャ、制作、圧縮のプロセスでノイズや歪みを導入します。クラウドビデオ処理機能を使用して導入を減らすことができます。専門設備と労働力の処理コスト。

ただし、多くの場合、機会と課題が共存します。クラウドビデオ処理によるオーディオとビデオのエクスペリエンスの向上には、いくつかの課題もあります。一方で、古い映画やテレビシリーズなどの市場のストックビデオコンテンツは、設備や制作技術、画質にばらつきがあり、画質の復元にはさまざまな種類やシナリオがありますが、低解像度など、ビデオ体験に影響を与える客観的な指標はたくさんあります。ノイズ、ブラー、低フレームレート、暗い色、暗いスポット、明るいスポットなど、現在、単一のテクノロジーを使用してすべてのシーンのエクスペリエンスを向上させることは不可能であり、非常に高いテクノロジーの蓄積が必要です。

02/超高精細ビデオ体験を作成するためのクラウドトランスコーディングの重要な技術的ポイント

では、ビデオ品質を向上させるためにクラウドビデオ処理に必要な重要な技術的ポイントは何でしょうか。いくつかの低品質ビデオのパフォーマンスから始めて、超高解像度ビデオのエクスペリエンスを実現するために、低解像度、ノイズ、ブラー、スクラッチ、フリッカー、低フレームレートなど、エクスペリエンスに影響を与えるいくつかの主要な特性を要約できます。 、灰色など。これに対応して、クラウドのトランスコーディングシステムは、対応するテクノロジーを使用して、これらの低品質ビデオの特性に応じて低品質ビデオの画質を向上させることができます。主なテクノロジーには、超解像、ノイズリダクション、修復、フレーム挿入、 SDR2HDR。

2.1スーパースコアアルゴリズム

まず、空間解像度の向上とも呼ばれるオーバースコアを見てみましょう。超解像とは、基本的に、単位空間でより多くのピクセルを生成し、ピクセルの密度を上げて画像の詳細を向上させ、ビデオの鮮明度を向上させることを指します。

ディープラーニングネットワークがスーパースコアに適用される前は、アップスケーリングの解像度は主に従来の補間アルゴリズムを使用していました。より一般的に使用される双一次内挿、二一次内挿、ランツォス内挿、およびその他のアルゴリズムなど、トランスコーディングシステムでのダウンサンプリングにこれらのアルゴリズムを使用することがよくあります。上の図(左)はバイキュービック補間の例です。アルゴリズムは、サンプリングポイントの周囲の16ポイントのグレースケール値を使用してキュービック差分を作成し、データに適合する適切な補間基底関数を選択します。

アルゴリズムの説明から、従来の補間アルゴリズムは、一般に、マッピング関数とも呼ばれる補間基底関数を事前に定義する必要があることがわかります。計算量を考慮すると、マッピング関数は一般にそれほど複雑ではないため、従来のアルゴリズムは次のようになります。この種のシーンで使用される一般化能力は比較的劣っています。さらに、それらのほとんどはフレーム内補間であるため、挿入する値は前後のフレームとの時間的相関がなく、隣接するピクセルとの空間的相関が比較的少ないため、一般的に効果はあまり良くありません。

現在、スーパースコアリングの効果を追求するために、人々はディープラーニングに基づくスーパースコアリングアルゴリズムを選択する傾向がますます高まっています。図(右)は単純な超解像ネットワークです-SRCNN、誰もがこのネットワークモデルに精通しています。SRCNNの登場により、私たちは真にディープラーニングの超解像時代に入りました。基本的に、毎年いくつかの新しい研究の方向性が現れ、超解像ニューラルネットワークはますます強力になっています。従来の超解像アルゴリズムと比較して、ニューラルネットワークベースの超解像マッピング関数は多層非線形であり、学習することができます。挿入された値は、時間と空間の次元でより多くの周囲のピクセルに関連付けることができ、詳細は次のとおりです。より正確で、超高精細分野でも広く使用されています。

2.2ビデオフレームの挿入

画質に影響を与える空間解像度に加えて、時間解像度、つまりフレームレートも、人々の主観的な体験に大きな影響を与えます。端末デバイスは非常に高速で更新されており、サポートされている解像度は480p、720pから1080p、そして現在は4Kと8Kの範囲です。同様に、端末でサポートされるフレームレートも25fpsから60fps、120fps以上であり、高いリフレッシュレートが端末の重要なセールスポイントになっています。

フレームレートを上げるために取得ハードウェアに依存することに加えて、ソフトウェアを使用する現在の方法も徐々に適用されています。一部の厳しいスポーツシーンでは、フレームレートが低いと、明らかな吃音感が生じ、人々の視覚体験に影響を与えることを誰もが経験しています。ビデオフレーム挿入アルゴリズムは、元のビデオフレーム間に存在しないフレームを合成して、画像の滑らかさを向上させることです。簡単に言うと、フレームレートを上げることです。オプティカルフローに基づく従来のフレーム挿入アルゴリズムなど、フレーム挿入アルゴリズムに基づく多くの研究があります。

従来のアルゴリズムのデメリットは何ですか?実際の画像では、大きなオブジェクトがすばやく移動または閉塞するシーンがあります。従来のオプティカルフローフレーム補間によって引き起こされる問題を解決することは困難であるため、フレーム補間の品質を向上させることはできません。シーン。。効果を上げたい場合は、AIをベースにした考え方に戻ります。

現在、AIフレーム挿入のアイデアと方法は、オプティカルフロー推定モデルを生成するための事前トレーニングが一般的です。アルゴリズムの実装では、最初に2つのフレームを入力し、フレーム間のオプティカルフローを計算して、特徴ピラミッドを抽出します。ワーピングマップ、特徴ピラミッド、元の画像を組み合わせる画像合成ネットワークに送信され、フレーム挿入後に画像が生成されます。現在、この方向に関連する論文がたくさんあり、興味のある人なら誰でも勉強することができます。

2.3ビデオノイズリダクションテクノロジー

次に、ビデオノイズリダクション技術を見てみましょう。誰もがビデオのノイズを経験しているはずです。私たちがよく見る古い映画の雪のノイズとちらつきのノイズは非常に明白であり、画質の経験は非常に劣っています。 。ビデオキャプチャからディスプレイ配信までの完全なサイクルで、関係する各段階でさまざまなタイプのノイズが発生し、最終的には消費者リンクの再生体験にフィードバックされることを私たちは知っています。ノイズの発生源は多様で広範囲にわたるため、ビデオノイズの低減が非常に必要です。

ノイズリダクション技術により、元の情報の整合性を維持しながら、不要な情報を削除することができます。空間ピクセル特徴ノイズ除去や変換ドメインノイズ除去に基づく従来のノイズ除去アルゴリズムなど、多くの種類の画像ノイズ除去アルゴリズムがあります。従来のノイズリダクションアルゴリズムは、ノイズを低減しながら画像の細部やエッジ情報を失うことがよくありますが、一般的にはノイズリダクションパラメータを設定する必要があり、その効果もパラメータの影響を大きく受けるため、一般的に広く使用することは困難です。シーン。

もう1つの急速に発展している方向は、ニューラルネットワークに基づく適応ノイズリダクションアルゴリズムです。このアルゴリズムは、入力画像のノイズレベルに応じてノイズリダクションの強度を適応的に調整でき、画像の詳細やエッジ情報の損失は比較的小さくなります。ノイズリダクションを最大化できます。元の情報の保存の程度。

ニューラルネットワークに基づく適応ノイズリダクションアルゴリズムにも、独自の欠点があります。たとえば、トレーニング用の資料が限られているため、シーンを完全にカバーできず、一部のシーンはネットワークの学習能力を超えます。もちろん、これは深層学習アルゴリズムで発生する一般的な問題でもあります。ノイズ源のシーンが広くなるため、アルゴリズムのテストも大きくなります。

2.4ビデオ修復技術

ビデオの修復は、狭い修復と広い修復に分けられます。狭い修復とは、傷、暗い部分と明るい部分、ちらつきなど、ビデオ内のいくつかの問題を対象にした修復を指します。広い意味で、修復とは、ビデオの欠陥を修復しながら、元のビデオにいくつかの拡張を加えることです。一般化された修理の適用範囲はより広くなり、主に古い映画、古いTVシリーズ、一部の低品質のUGCビデオなどで使用されます。

古い映画のAIインテリジェント復元が登場する前は、古典的な古い映画の復元は通常、フレームごとに手動で行われていましたが、これは非効率的でした。多くの大きな映画の復元時間は年単位で測定されていました。AIのインテリジェントな修復技術フレームワークを使用すると、大量のサンプルに基づいて自動的にトレーニングと学習を行うことができ、古いフィルム修復の品質と効率を大幅に向上させることができます。手動では達成できない修復効果は、現在のAIテクノロジーの助けを借りて簡単に達成できます。

現在、AI技術を使って古い映画を修復することは可能ですが、それでも古典的な古い映画を修復することは容易ではありません。最大の難しさは、古い映画の芸術的なスタイルと美学を維持しながら、さまざまな問題や欠陥に対処することです。

2.5 SDR2HDR

もう1つの重要な技術的ポイントとして、近年急速に発展している技術であるSDR2HDRを見てみましょう。HDRは、SDRよりも高い輝度範囲、広い色範囲、深いビット深度でよく知られています。SDRは、より豊かなディテール、広い色域、より自然な色遷移を備えたビデオをもたらします。上の写真でSDRとHDRの比較を見ることができますが、明るさ、彩度、コントラストの点で、HDR写真の視覚効果が優れていることがはっきりとわかります。さらに、現在のHDRフィールドにもさまざまな規格が登場しており、さまざまな次元でのこれらの規格の違いをグラフから確認できます。

03/ビデオAIトランスコーディングの分野におけるHUAWEICLOUDの技術的実践

HUAWEI CLOUDがAIテクノロジーを使用して、超高解像度ビデオの時代にビデオ品質と再生体験を向上させる方法を見てみましょう。

HUAWEI CLOUDは、ビデオエクスペリエンスを向上させるために、ビデオのエンハンスメントと修復、3D変換、画質の復元などの完全なソリューションであるSmart ShareUltraHDテクノロジーを発表しました。Huawei Cloud Zhixiang Ultra HDテクノロジーは、Huaweiの自社開発AIアルゴリズムに完全に基づいており、マルチタスクAIエンハンスメント手法を採用し、インテリジェントな修復とインテリジェントなエンハンスメントテクノロジーを使用して、ライブブロードキャストにより適した超高解像度のビデオエクスペリエンスを作成します。 、オンデマンドおよびインタラクティブエンターテインメントなど。シーン。

3.1 HUAWEI CLOUDUltraHDテクノロジーの全体的なアーキテクチャ

上の写真は、Huawei CloudZhixiangの超クリアテクノロジーの全体的なアーキテクチャです。AIディープラーニングに基づくマルチタスクの画質向上です。前述のように、1つのタスクで画質のすべての問題を解決することは困難です。包括的な分析の結果、図のパイプラインアーキテクチャを採用しました。各拡張モジュールは、自由に組み合わせることができるアルゴリズムプラグインに相当します。比較的柔軟に使用できます。処理の前に、ノイズ強度分析、画像の明るさ分析、ROI領域の検出など、いくつかの基本的な事前分析を行います。これらの分析結果は、後続のモジュールのインテリジェントな処理をガイドするために使用されます。

図からわかるように、画質向上の全体的なソリューションには、主に、ベースレイヤーの修復、時間的および空間的ドメインでのシャープネスの向上、明るさと色の向上、および3Dの向上が含まれます。実際の処理では、一部の選択的修復も行うことができます。選択的修復には、主にスクラッチ除去、輝点除去、フリッカー除去が含まれます。アルゴリズム設計では、適応能力に重点を置きます。つまり、さまざまなシーンでの画質の低下に直面して、ビデオエンハンスメント技術はブラインド修復で強力な一般化能力を備えている必要があります。

実際の申請プロセスでは、時間がかかるため、これらのモジュールがすべて順番に処理されるわけではありません。効率を向上させるために、複数のビデオエンハンスメントタスクも共同で最適化します。

3.2ハイブリッド歪みのAI画質復元

実際のビデオソースには、ノイズ、圧縮アーティファクト、ブラーなどのさまざまな混合アーティファクトが含まれ、これらのアーティファクトの程度は大きく異なることはよく知られています。解像度の要素だけを考慮した場合、ビデオにオーバースコアを付けると、オーバースコアによって欠陥が拡大する可能性があり、視覚効果を大幅に向上させることは困難です。

HUAWEI CLOUD Zhixiang Ultra-HDテクノロジーは、マルチタスクハイブリッド歪み修復ネットワークを構築することにより、より優れた主観的効果を実現します。歪んだビデオをシミュレートするために多くの手順を使用し、ガウスノイズの追加、ランダムモーションブラーの追加、カラーノイズの追加、解像度を下げるためのダウンサンプリング、非常に高い値の使用など、さまざまな方法で画質を復元するためのサンプルをさらに生成します。圧縮ノイズなどを発生させるための圧縮時の圧縮率。このようなデータセットを構築した後、混合歪みを使用したマルチタスクビデオエンハンスメントアルゴリズムを介してさまざまなディストーションを適応的に推定し、さまざまな品質のビデオに対するアルゴリズムの一般化能力を強化できるようにします。

もちろん、ここでは、歪み推定モジュールでノイズ強度を推定する方法など、多くの課題もあります。これは、異なる画像のノイズが異なり、同じ画像の異なる領域のノイズも異なるためです。画像のさまざまな領域における主観的な視覚的ノイズの違いを評価するために、AI適応型ノイズリダクションアルゴリズムを提案します。まず、明らかなノイズのある領域を正確に特定し、次に時間領域と空間領域のノイズ強度の違いを包括的に検討し、さまざまな領域のノイズ強度を推定します。

もう1つの大きな課題は、ノイズシミュレーションです。上記の方法でシミュレートされたノイズは、実際のノイズとはまだ異なります。CycleGANなどのAIネットワークを使用して実際のノイズをシミュレートし、トレーニング後、画像の自然さや鮮明さなどの次元でより優れた主観的効果を実現できるようにします。

3.3セマンティック機能に基づくビデオスーパースコア

セマンティック機能に基づくHuaweiのビデオスーパースコアテクノロジーを見てみましょう。画質の空間解像度向上のために、セマンティック機能に基づくビデオスーパーセグメンテーションを提案します。つまり、画像は最初にセマンティクスに従ってセグメント化され、次に領域によって処理され、最後に向上した結果が融合されます。たとえば、人間の目の主観的な特性に基づいて、サブタイトル、顔、テクスチャなど、人間の目がより注意を払うほとんどの映画やテレビドラマの一部の領域では、別のアルゴリズムモジュールを使用して焦点を合わせます人間の目が注意を払うようにするために、これらの関心領域に焦点を当てます。この領域は、より優れた強化効果を実現でき、複数のローカル最適ソリューションからグローバル最適ソリューションを取得できます。

このようなセマンティック機能ベースのビデオスーパースコアは、字幕と各単語が大まかにどのように見えるかが決定論的である字幕エンハンスメントなどの強力な優先順位を持っているため、一般にブラインドスーパースコアよりも優れたエンハンスメントを実現できます。目、口、鼻、耳。字幕やテクスチャのデータベースをたくさん集めることができますが、これにより、エンハンスメントの効果が大幅に向上します。

3.4結合オプティカルフローネットワークに基づくビデオフレーム挿入

通常の20fpsまたは30fpsのビデオは、携帯電話では非常にスムーズです。大画面に配置すると、動きが拡大し、フリーズがより明確になるため、時間領域を次のように拡張する必要があります。ビデオのフレームレートを改善します。

HUAWEI CLOUDは、ビデオフレーム挿入のタスクとして、結合オプティカルフローネットワークモデルを提案しました。このオプティカルフローネットワークモデルは、前後の2つのフレーム間のオプティカルフローを正確に推定できます。モーションおよびオクルージョンとして、オプティカルフローの推定は比較的正確です。図は一例で、左はより高度なビデオフレーム挿入アルゴリズムRIFEによって推定されたオプティカルフロー、右はHuaweiCloudの自己開発アルゴリズムによって推定されたオプティカルフローです。これらの色の意味に注意を払う必要はありませんが、形状から、右のオプティカルフローモデルで推定されるオプティカルフローがより繊細になり、細部がより豊かになることがわかります。

3.5シーン適応に基づくSDR2HDRテクノロジー

SDRからHDRに変換する場合、明るいシーンや暗いシーンなど、多くの課題があることは誰もが知っています。シーンの適応を実現し、最高の動的輝度拡張を実現するには、さまざまなスキームを使用する必要があります。別の例は、SDRの緑です。 HDRでは、緑の歪みの問題が発生することがあります。背景色により、変換後に顔の色が赤みを帯びる場合があります。この場合、色の拡大のシーン適応を実現し、拡大する際の色かぶりを制御する必要があります。色;たとえば、HDRに変換すると、ノイズや歪みが増幅されたり、認識されやすくなります。この場合、輝度の増加によって生じるノイズや歪みを制御する必要があります。

HUAWEI CLOUDのSDR2HDRソリューションは、AI技術に基づいてシーン適応変換を実現します。たとえば、処理される元のビデオでは、最初にシーン認識が実行され、顔や風景などのカテゴリが分類されます。シーン分類後、アダプティブシーンの明るさ拡張とアダプティブシーンのカラー拡張を実現し、変換プロセスの各シーンのトーンマッピングアルゴリズムを最適化して、8ビットから10ビットへの拡張後に発生する歪みを抑えることができます。

実際のアプリケーションでは、変換された多数のビデオに対して主観的な評価を行い、さまざまなシーンで変換されたビデオのいくつかの問題を対象に調整します。その後、アルゴリズムは現在、映画やテレビのドラマやテレビで非常に優れています。ドラマ。効果。

3.6CUVAHDR標準に基づくシーン適応型SDR2HDRテクノロジー

上記のHuaweiCloudSDR2HDRテクノロジーはHDR10に変換されます。前の紹介では、HDRテクノロジーのさまざまな標準もリストされています。主要な貢献者として、ファーウェイはCUVAHDR技術標準の策定に深く関わってきました。HDR10は静的トーンマッピングを使用しているため、ディスプレイデバイスとの互換性の問題が発生します。たとえば、元のシーンの明るさは1000nitで、表示画面の最大輝度値である500nitよりも大きくなります。静的マッピング曲線マッピングを使用した後、 500nitディスプレイにビデオが表示されます。露出オーバーの問題は簡単に発生し、多くの詳細が消えます。

CUVAHDR標準に基づくHUAWEICLOUDの現在のSDR2HDRテクノロジーは、動的メタデータスキームを採用しています。これは、さまざまな明るさの画面に適応して最高の表示効果を実現し、さまざまな明るさの画面で同じコンテンツの最高のエクスペリエンスを保証し、色の生成を回避します。 、露出オーバーなど。前述のシーン適応テクノロジーは、CUVA HDR変換にも適用できます。このマルチテクノロジーの組み合わせソリューションは、デバイスの互換性とシーンの適応性を向上させることができます。

04/まとめ

上記は、Huawei Cloud MediaProcessingServiceが超高解像度ビデオエクスペリエンスを作成するためのいくつかの重要なテクノロジーです。ビデオ体験に影響を与える指標はたくさんありますが、体験を改善する方向性は基本的に明確です。多くの困難と技術的課題がありますが、当社の技術者は課題に直面し、ユーザーに技術革新をもたらすことができると信じています。究極の体験。超高精細ビデオの時代が到来しました。究極の体験を生み出すために、クラウド上の技術革新はその重要な部分にすぎません。デバイス、管理、クラウドのコラボレーションサービスとコラボレーションイノベーションだけが、消費者をより現実的にすることができます。ビデオ感覚の楽しみ。

 

[フォロー]をクリックして、HUAWEI CLOUDの新技術について初めて学びましょう〜

{{o.name}}
{{m.name}}

おすすめ

転載: my.oschina.net/u/4526289/blog/5517607