画質の向上 + 帯域幅の最適化、Xiaohongshu オーディオおよびビデオ チームがデバイスとクラウドを組み合わせて超解像度の実装を実践

ビデオ ビジネスと短いビデオ再生の規模が拡大し続ける中、Xiaohongshu は、ユーザー エクスペリエンスの品質を向上させながらビデオ帯域幅のコストを削減する方法について研究に取り組んできました。

最近上海で閉幕したオーディオおよびビデオ技術カンファレンス「LiveVideoStackCon 2023」で、Xiaohongshu のオーディオおよびビデオ アーキテクチャのビデオ画像処理アルゴリズムの責任者である Jian Han 氏は、革新的なテクノロジーであるデバイスとクラウドを組み合わせたウルトラサブシステムを共有しましフレーム。オンサイト共有は多くの注目を集めているため、読者の役に立つように共有コンテンツをまとめました。

写真

以下の全文はジャン・ハン氏のスピーチに基づいて編集されたものです

みなさん、こんにちは。私の名前は Jian Han です。私は現在、Xiaohongshu オーディオおよびビデオ アーキテクチャでビデオ画像アルゴリズムの開発と実装を担当しています。本日のテーマはデバイスとクラウドの統合による人間の視覚品質に基づく画質と帯域の最適化の実践」です。その核となるのは画質と帯域の最適化です。キーワードは「デバイスとクラウドの統合」と「デバイスとクラウドの統合」の2つです。人間の目の知覚品質

私の共有は次の部分に分かれています。

1. まず、 Xiaohongshu のビデオ処理アーキテクチャを紹介し、オーディオおよびビデオ システムにおけるビデオ処理の 2 つの最も重要な目標、つまり視聴品質の向上とビデオ帯域幅コストの削減についてどのように考えているかを紹介します。

2. 次に、 Xiaohongshu が自社開発したAI ベースのリファレンスフリーのビデオ品質評価アルゴリズムである RedVQAを紹介します。これは、人間の視覚認識と一致した品質評価を提供します。

3. RedVQA を組み合わせて、デバイスとクラウドを組み合わせたスーパー スコアを設計しました。これにより、帯域幅の節約と複数の再生技術指標に大きなメリットがあり、コスト削減と効率向上の現在のニーズを満たします。エンドサイド超解像度の導入は、画質の向上と帯域幅の節約に役立ちます。

4. 最後にまとめと展望です

写真

写真

写真

まず、小紅書さんの印象はどうですか?

Xiaohonshu は当初、美容製品の共有や購入戦略などの消費者シナリオに焦点を当てていました。近年の開発を経て、Xiaohongshuは総合的なUGC共有コミュニティとなり、多くのユーザーが「衣食住、交通、娯楽」のあらゆる面で本物を共有し、多くの貴重な情報を提供しています。同時にユーザー層も大きく変化し、性別・年齢層別のユーザー割合がよりバランスよくなってきました。

もう 1 つの大きな変更点: 小紅書は主にグラフィック ノートを共有していましたが、ビデオがユーザーにとって生活を共有するための重要な手段となったため、小紅書もその傾向に対応し、ビデオ戦略を提案しました。現在、ユーザーは小紅書を閲覧することでビデオ ノートを見つけることができます。 . 大きな割合を占めます。現在、毎日追加される新しいビデオの数は 100 万件のレベルに達し、ライブブロードキャストのコンシューマー ビジネスも着実に改善しています

写真

では、 PUGC のオンデマンドおよびライブ ブロードキャスト サービスを支える主要なテクノロジーは何でしょうか?

これはアーキテクチャ図です。リンク全体には主にプロダクション エンド、クラウド エンド、コンシューマ エンドが含まれます。ユーザーはプロダクション エンドでコンテンツを作成、編集、プッシュします。その後、コンテンツは処理のためにバックエンド クラウドにリリースされます。これには主にマルチエンドが含まれます。レベルのビデオ変換 コーディング、コンテンツのレビューと理解、ビデオの検索と推奨、消費者側はユーザーが実際にそれを体験する場面です ユーザーエクスペリエンスには2つの側面があります 一方で、それはビデオ推奨コンテンツの体験です一方、それはビデオ品質と再生の滑らかさであり、後者はオーディオおよびビデオ処理において重点を置き、最適化する必要がある目標でもあります。この図からわかるように、オーディオとビデオの処理は 3 つの端にまたがり、上位層のビデオ ビジネスとアプリケーション全体のインフラストラクチャでもあります。ビデオ リンク全体の安定性とスムーズさを確保し、ユーザー エクスペリエンスを重視し、コスト(帯域幅、コンピューティング、ストレージなど) を削減します。

写真

この共有のトピックに戻ります。画質と帯域幅を最適化するにはどうすればよいですか?

このトピックについて説明する前に、背景を簡単に紹介しましょう。

Xiaohonshu は 2 年も前にオーディオとビデオの専門チームを設立しました。これが通常の研究開発ルートであれば、まずエクスペリエンスを向上させ、追加コストを考慮する必要があります。しかし、感染症流行後、業界全体がコスト削減と効率向上というテーマに乗り出し、コスト削減が当社の重要な目標の1つになりました。エクスペリエンスの向上がこのプロフェッショナル チーム設立の本来の目的であり、ユーザー エクスペリエンスを犠牲にすることなくテクノロジー コストを節約する唯一の方法は、テクノロジーを改善し、戦略を最適化することです。

幸いなことに、私たちは業界での経験を背負っている一方で、後発であるという利点もあり、これまでの経験に基づいてさらなる改善と最適化を行うことができます。私たち自身の考え。では、経験とコストのバランスをとるにはどうすればよいでしょうか? 私の理解を3つのレベルで話しましょう。

写真

1. モジュールレベルの最適化

まず第一に、コーディング標準の反復とアップグレードについては誰もがよく知っています。前世代の標準と比較して、各世代の標準は、基本的に同じ画質を維持しながら、ビット レートを 30% ~ 50% 節約できます。現在、Xiaohongshu は H.265 標準を大規模に展開しており、現在比較的高いカバー率を誇っています。開発中の主な規格は AV1 であり、将来的には H.266 も続く可能性があります。

新世代の標準が大規模に実装されるまでにはしばらく時間がかかりますが、現在の主な課題は、計算の複雑さが比較的高いことです。オンデマンドの場合は、クラウドをコンピューティング コストと交換できますが、再生側では、AV1 と H.266 をハード デコードできるデバイスが現在非常に少ないため、非常に最適化されたソフトデバイス ソリューションを展開する必要があります。

写真

2. 技術的な方向性を超えた統合

エンコードでは、元のビデオを最大限に表現するために最小ビット レートの使用が考慮されるため、ビデオ品質の上限は元のビデオになります。UGC によって作成される動画の品質は非常に多様で、画質向上や修復アルゴリズムを使用して元の動画の品質を向上させることができれば、それに応じてコンシューマ側に対応するトランスコードされた動画の品質も向上させることができます。たとえば、ノイズの多いビデオをノイズ除去アルゴリズムを通過させてエンコードすると、画質が向上するだけでなく、ビット レートもさらに節約されます。もちろん、すべての画質アルゴリズムがこのような二重のメリットをもたらすわけではありません。例えば、クラウド上でスーパースコアリングを行うと、画質は向上しますが、ビットレートも増加します。

第二に、現在のコーディング フレームワークは依然として比較的伝統的であり、ビデオ コンテンツへの理解が不足しており、固定コーディング パラメータとコード制御アルゴリズムが最適ではありません。したがって、ビデオシーンを分類し、コンテンツとセマンティクスの理解を高めることにより、エンコード効果と効率をさらに向上させることができますさらに、主観的な観点から見ると、関心のある領域のエンコード品質を向上させると、実際の視聴エクスペリエンスをより効果的に向上させることができますが、興味のない領域のエンコード品質を下げることは、視聴エクスペリエンスには影響せず、ビット レートの節約に役立ちます。

ビデオ分析、処理、およびコンテンツ適応型エンコーディング テクノロジーは集合的に、高レベルの画像分析、低レベルの画像処理、およびエンコーディング テクノロジーの統合を含むインテリジェントなトランスコーディング ソリューションを形成します。私の知る限り、各メーカーはこの分野で独自のソリューションを持っていますが、インテリジェンス (エフェクトや自動化を含む) の程度を向上させる必要があります。インテリジェンスの程度が高まるにつれて、利点と効率も向上します。

さらに、学術界では、エンドツーエンドの深層学習ビデオコーディングなど、破壊的な最先端の研究もいくつか行われていますが、一般的に言えば、大規模な成果が得られる可能性があるのは、より中長期的なことです。スケール実装。

写真

3. グローバルシステムの最適化

トランスコーディングはオーディオとビデオの処理において最も重要なタスクであり、クラウド処理の重要な部分にすぎません。世界的な観点から見ると、オーディオおよびビデオ処理は、制作側から消費者側までのビデオ処理リンクです。ローカルな最適化は、ローカルな最適性をもたらすことがよくあります。グローバルな観点から見ると、多くの技術的な最適化はもはや矛盾していないことがわかります。たとえば、上で述べたように、クラウドの超解像度は画質を向上させますが、ビット レートも増加します。理論的には、帯域幅が増加します。しかし、グローバルな分析を行った場合、CDN は通常、ピーク時間帯に基づいて料金を請求し、オフピーク時間帯にスーパーコーディングされた高ビットレートのビデオを配信しても帯域幅コストは増加しないことがわかります。

また、再生側の画質を向上させることができれば、より低ビットレート、低解像度の動画を配信できるため、大幅な帯域節約が可能となり、後述する超解像度のデバイスとクラウドの組み合わせがその典型例となります。 。

より大きな観点から見ると、ユーザー エクスペリエンスには画質エクスペリエンスとコンテンツ エクスペリエンスが含まれます。オーディオとビデオの処理の結果、ビデオの全体的な品質が向上します。ビデオの推奨とビデオ品質評価を組み合わせて、興味深く高品質のビデオをユーザーに推奨できます。ユーザーです。

コーディング標準の反復から全体的な最適化まで、エクスペリエンスとコストの両方を最適化するために検討できる点はまだたくさんあると思いますし、実際には 1 つの技術的な点でもまだ多くの余地があると考えています。この判断は、主に 2 つの理由に基づいています。第一に、オーディオおよびビデオ システムのインテリジェンスの程度はまだ比較的低いです。インテリジェンスが高いということは、エクスペリエンスとコストのバランスが良くなることを意味します。また、オーディオおよびビデオ システムに実装されたアルゴリズムの効果は、依然として上位には程遠いことがわかりました。学術の限界。一定の距離があります。客観的な理由は、学術的なアイデアは通常、非常に小さなデータセットで検証され、数十億のビデオの消費と表示には多くの問題が発生するためです。しかし、良い面は、今後、これらの最新のアイデアをうまく​​活用して、一般的な問題化やパフォーマンスの問題を解決できれば、大きなメリットが生まれるでしょう。

写真

モジュール最適化から全体最適化への進化において、最も重要かつ基本的な機能アップグレードは品質評価であると私は考えています。エンコードを最適化するだけの場合は、PSNR/SSIM/VMAF およびその他の参照インジケーターを使用できます。インテリジェントなトランスコーディングを構築する場合、これらの基準品質評価方法は適用できなくなり、たとえば、画質が強化されたビデオは元のビデオよりも良く見えます。さらに、世界的な観点から見ると、多くの処理ノードには参照ビデオが用意されておらず、相対的な品質評価方法を使用できません。したがって、人間の目で知覚される品質に基づいて、ビデオの絶対的な品質を評価するように品質評​​価をアップグレードする必要があります。

写真

写真

ここでは、 Xiaohongshu が独自に開発した深層学習に基づいたリファレンスフリーのビデオ品質評価アルゴリズムである品質評価指標 RedVQAを紹介します。

このアーキテクチャ図に戻って、RedVQA に何ができることを期待しますか?

まず第一に、キャプチャされたビデオの元の品質、編集と特殊効果処理後の品質、トランスコードして消費者に送信した後の品質を含む、ビデオ リンク全体の任意のノードでのビデオ品質を評価できることを期待しています

次に、画質とエンコード アルゴリズムの最適化をガイドできることを期待しています。

最後に、上位層のビデオ サービスとアプリケーションを支援できることを願っています。

写真

上記の分析に基づいて、RedVQA の研究開発目標と課題をまとめます

最初の目標は、ビデオの撮影またはアップロード時にさまざまなビデオ品質の問題をキャプチャできるようにすることです。課題は、できるだけ多くの UGC 品質の問題 (ぼやけ、露出オーバーと露出不足、ノイズ、不自然な色、過度のシャープネスなど) をカバーすることです。 、など)。

2 番目の目標は、ビデオ処理チェーンにおける劣化と品質改善の変化を捕捉できるようにすることです。そのためには、ビデオ リンク全体の品質改善と劣化の動作を特定して理解し、これらの要素をアルゴリズムに統合し、データセット設計です。たとえば、低ビットレートのエンコードでは品質の低下が発生し、詳細の損失、明瞭さの損失、平坦な領域でのブロックノイズ、エッジやテクスチャ領域でのリンギング/モスキート ノイズなどの画質の問題が発生します。また、画像圧縮と比較して、ビデオ圧縮はビット レートの割り当てがより複雑であるため、ビデオ品質が空間​​領域と時間領域で不均一に分散されることになり、そのためインテリジェントな認識機能に対する要件も高くなることにも注意してください。アルゴリズム。通常、画質向上アルゴリズムにより画質を向上させることができます。一般的な超解像度、ぼけ除去、圧縮損失、HDR およびその他のアルゴリズムは、詳細、明瞭さ、ノイズ、明るさ/色などの点で画質エクスペリエンスを向上させるのに役立ちます。

3 番目の目標は、人間の目の主観的な知覚品質と一致することです。これには、アルゴリズムがインテリジェントであり、強力な一般化を備えていることが必要です。たとえば、大きな絞りで撮影した写真は背景がぼやけた効果を生み出し、人間の目では問題なく、見た目にも美しいと感じますが、アルゴリズムは背景のぼやけをぼやけの問題として誤って判断する可能性があります。

写真

データセットを自己調査する前に、品質評価の分野でいくつかの主要なデータセットを収集し、分析と要約を通じていくつかの結論を導き出しました: a. CV タスクと比較して、オープンソースの品質評価データセットのサイズは非常に小さいです。 b. データ ソースは、ユーザーの機器や撮影のプロフェッショナリズムを含め、当社のオンラインと一致していない可能性があります; c. オープン ソース データ セットには、Xiaohongshu の独自のエンコーディング/画質処理や特殊効果などのビジネス ビデオ リンクによって処理されたデータがありません。テンプレート処理; d. ビジネス テスト セットでオープン ソース データ セットを使用してトレーニングされたアルゴリズムの精度もテストしましたが、結果はオープン ソース データ セットよりもはるかに低かったです。

そこで、RedVQA データセットを自分たちで構築することにしました。データセット構築の鍵となるのはビデオ収集であり、主な考慮事項は、限られたデータセットを通じて比較的無制限のビッグデータをどのように表現し、訓練されたアルゴリズムが強力な一般化機能を持たせるかということです。実際には、それを 3 つのステップに分けます: 1 つ目はビデオの予備審査です。このステップは、オンラインビデオのタグ、カテゴリー、および基本的なビデオ情報に基づいています。たとえば、さまざまなビットレートを含む主要な解像度をカバーする必要があります。コード品質のビデオ。2 番目のステップでは、候補データ セット内で可能な限り豊富なシーンと多様な品質を持つビデオ サブセットのバッチをサンプリングする必要があります。判断基準として、さまざまな画質次元のいくつかのシーン分類および検出指標を使用します。指標のサンプリングを通じて、収集されたデータセットがよりバランスが取れているか、各指標に関して期待と一致していることが期待されます。最初の 2 つの手順を実行しても、一部の低品質ビデオは依然として失われます。これは、一部の問題のあるビデオの割合が小さく、オンラインでフィルタリングするのが難しいためです。ビデオリンク全体を理解して分析することで、一部の低品質ビデオを手動で補足または構築する必要があります

データ アノテーションとクリーニングについては、主に ITU-T P.910 規格を参照し、プロセス仕様を通じてデータ アノテーションの品質を保証します。品質スコアの定義も重要ですが、美学には個人の主観が強いため、主に画質の次元を考慮し、さまざまな画質の次元の優先順位は主に小紅書によるユーザー調査を参考にしています。

写真

アルゴリズムの設計では、品質の特徴を効果的に抽出する方法に重点が置かれています。これには、ビデオ リンクの編集やトランスコーディングが品質にどのような影響を与えるかなど、品質の問題が発生するプロセスを十分に理解する必要があります。3 つのキーをまとめました。ポイント:

1. 時空間サンプリングでは、全体的な構成と局所的なテクスチャ情報の両方が重要です。品質の知覚特性は局所的な質感に反映されますが、劣化の程度は全体的な知覚に影響します。

2. ネットワーク設計は、広範囲の時空間情報と依存関係をキャプチャできなければなりません。人間の目の品質認識には、全体的な意味の理解、関心のある領域、創造的な意図の理解などが含まれます。多くのビデオ処理操作が品質に影響します。大きな時空間範囲内でのコードレート割り当てや ROI エンコーディングなど。

3.品質評価データセットの規模と完全性は、分類や認識などの CV タスクのデータセットよりもはるかに低く、品質特徴は非常に複雑であるため、品質特徴の抽出を明示的に支援する何らかの手段が必要です。1 つの方法は、順序付けされた品質サンプルを追加するか、品質評価の代理タスクを使用することによって、データ強化と品質特徴の自己教師あり学習を実行することです。

写真

次にアルゴリズムの検証です。まず、品質評価分野における評価指標として、PLCCは相関関係、SRCC/KRCCは秩序維持、RMSEは絶対誤差を表すものを紹介します。RedVQA の相関は 0.9 程度であり、使用可能な状態に達しています。さらに、品質低下に対するアルゴリズムの感度も検証しました。まず、品質順序付けされたサンプルのバッチを構築する必要があります。エンコードパラメータの設定を通じて、さまざまな解像度とビットレートの一連のサンプルを取得しますが、実際のオンライントランスコーディングサービスでは、さまざまな解像度とさまざまなエンコードパラメータに基づいてトランスコーディングギアも設計されており、オンラインビデオにも適しています。上の図からわかるように、品質管理パラメータ CRF が増加するにつれて、品質スコアは徐々に低下します。これは期待と一致しており、アルゴリズムがある程度の微妙な品質損失を捕捉できることを示しています次に、同じビデオの異なる解像度バージョンでは、一般的に高解像度の品質が低解像度の品質よりも優れていることがわかり、これも予想と一致しています。

写真

RedVQA に基づいて、さまざまな側面に従ってビデオ品質スコアをカウントする大規模な品質監視ダッシュボードを実装しました。これらのデータを通じて、市場全体のビデオ品質と各分割次元の品質を理解するのに役立ちますデータを取得すると、その後の最適化アクションに十分な根拠が得られます。この図は、さまざまな垂直カテゴリのビデオ品質スコアを示しており、さまざまな分位数の品質統計により、制作側のビデオの品質分布を全体的に把握することができます。右側の上部の図は、解像度ごとに分割された制作側のビデオ品質の統計を示し、右側の下部の図は、さまざまな編集方法の統計を示しています。

写真

制作側の品質監視に加えて、消費者側のビデオ品質監視はさらに重要であり、Xiaohongshu のユーザーへのプレゼンテーションの全体的な品質を決定します。消費者側は制作側よりも複雑ですが、一方では、ネットワーク速度の変化、コスト管理、エンドデバイスのさまざまなコンピューティング能力に対処するために、アップロードされた各ビデオを異なるギアにトランスコードする必要があります。配信ギアは再生制御によって決定されますが、レコメンデーションシステムはユーザーが視聴する映像コンテンツに大きな影響を与えるため、消費者側の品質モニタリングは、実際のユーザーが視聴する映像の品質を理解するだけでなくトランスコーディングギア、再生、推奨戦略を最適化します。

写真

以下では、エンドクラウド。これは、コストを削減し、効率を向上させるための今年の主要プロジェクトでもあります。

超解像度のテーマは、学術界や産業界で長年研究されてきました。ただし、ビジネス シナリオや統合システムが異なると、エンドサイドの超解像テクノロジのビジネス目標と技術的方向性には明らかな違いがあります。

たとえば、新しいハードウェア デバイスの場合は、そのハードウェア アクセラレータに基づいてアルゴリズムをカスタマイズおよび最適化するだけで済みます。

動画ビジネスとAPPについて、どのような点に注意し、どのようにすれば大きなメリットを得ることができるのか、以下で理解と実践を共有しましょう

写真

ビデオ APP の場合、オフライン評価に加えて、AB 実験データがアルゴリズムを実装できるかどうかの最終的な定量的指標となりますQoS 技術指標と QoE ビジネス指標からプラスの効果が得られることを期待していますが、帯域幅の節約はコスト削減と効率改善のタスクにとって最も重要な指標でもあります。再生側でのビデオ アルゴリズムの実装は、アルゴリズムのパフォーマンスに大きな影響を与えます。アルゴリズムが長いと遅延が発生する可能性があり、統合方法が間違っていると、再生失敗率と最初のフレーム継続時間が増加する可能性があります。さらに、ユーザー機器のモデルとパフォーマンスは多様であり、通常、ハイエンド マシンにアルゴリズムを導入するのは簡単ですが、ミッドエンドからローエンドの機会をさらにカバーすることは非常に困難です。

過去 2 年間、業界はエンドサイド超解像の大規模導入で画期的な進歩を遂げており、効果と適用範囲のさらなる向上は誰もが関心を持っている問題です。しかし、アルゴリズムの効果検証はオフライン検証が一般的であり、オンライン化後の画質アルゴリズムの効果を定量化することが難しく、悪いケースがあるかどうかが不明であるという別の解決すべき問題も見つかりました。QoE指標は事後的な指標であり、定義から画質に完全に影響されるわけではないことがわかるため、  QoEデータの品質は超解像効果と直接対応するものではなく、指標となるものではありません。アルゴリズムの後続の反復。

また、収益の一部が犠牲になった場合、実装はより簡単になることにも注意してください。たとえば、ハイエンド マシン向けにエンドサイド スーパー スコアリングを設計する場合、そのコンピューティング パフォーマンスに応じてアルゴリズムの複雑さを増加させることができます。効果は向上しますが、より広い市場ではそのメリットは非常に限られています。

写真

最大限のメリットを得るために、人間の目の知覚品質に基づいてデバイスとクラウドを組み合わせた超解像度ソリューションを設計し、上記の課題を解決しました。これは主にクラウド メディア処理とデバイス側再生の 2 つの部分に分かれていますユーザーがビデオを視聴すると、対応するクラウド ビデオには複数の歯車があり、異なる歯車は異なる決定に対応します。超解像化については、再生側でデコード後にエンドサイド超解像アルゴリズムを導入すると同時に、クラウド上の超解像ギアをエンドサイド超解像用にカスタマイズしました。超解像オープニング戦略を細かく制御し、最終的な端側の過剰解像度の影響を補償します。まず、帯域幅のピーク予測を使用してスーパー スコア配布の期間を制御し、第 2 に、品質とビット レートの収益評価を使用して、ユーザー エクスペリエンスと帯域幅の収益のバランスを改善し、各ビデオのコストを動的かつ詳細に定量化します。ここで使用される品質評価は、前述の RedVQA です。

写真

超解像アルゴリズムを設計する際にまず確認する必要があるのは、QoSデータがマイナスにならないことであり、超解像をオンにした後のテクニカル指標が大幅に劣化しないことが求められます。比較的高いカバレッジ率を達成するには、中級から低級のマシンでスムーズに実行できる必要があり、アルゴリズムのパフォーマンスに対する要件が高くなります。アルゴリズムのパフォーマンス目標については、計算量が GFLOPS 以内、消費時間が 10ms 以内、消費電力が 100mAh 以内であることが経験的に判断されています。比較的小さいかもしれません。

デプロイメント レベルでは、CPU は通常複数のタスクで共有されるため、アルゴリズムが CPU とメモリを占有しすぎると、APP がクラッシュする原因となるため、アルゴリズムが占有する CPU とメモリをできるだけ少なくすることも必要です。「断片化された」展開を避けるということは、複数のアルゴリズムを設計したり、複数のプロセッサ向けに最適化したくないことを意味します。主な理由は、アルゴリズムの最初のバージョンが迅速に検証され、展開されて、できるだけ早くメリットがもたらされることを期待しているからです。もちろん、将来的には一部のモデルに対して、より良い設計のアルゴリズムを反復することも計画しています。

次の表は、いくつかのアルゴリズム調査の概要です. 公開文献に記載されている軽量深層学習超解像アルゴリズム (SCSRN) は、ネットワーク モデルが非常に小さいように見えますが、依然として比較的大量の計算量を持っていることがわかります。 VeriSilicon NPU では 19 ミリ秒かかり、より一般的なプロセッサではさらに時間がかかります。計算量を比較すると、5x5ガウスフィルタの計算量は約100Mflopsとなります。

写真

上記のアルゴリズムはさらに圧縮することができますが、非常に軽量なアルゴリズムの設計では、画像理論に基づいた低レベルの画像アルゴリズムの方が深層学習よりも効率的であると一般的に判断しています。そのため、私たちは、超解像です。これは、画像配信の帯域幅を節約するために使用される、Google によって公開された非常に啓発的なドキュメントです。一般に、これは 2 段階のアルゴリズムであり、推論中に、まず画像パッチをパターンに分類し、フィルタリング カーネルを選択し、そのカーネルをフィルタリングに使用するという、コンテンツ適応型フィルタリング アルゴリズムと考えることができます。トレーニング段階では、同じカテゴリの入力パッチと対応するグラウンド トゥルース ピクセルが集められてトレーニング セットを形成し、カーネルが解決されます。このアルゴリズムのカーネル解は、勾配逆伝播を通じてトレーニングされておらず、直接取得された分析解であることに注意してください。左下の図からわかるように、このアルゴリズムは当時でもまだ非常に効率的であり、リアルタイムのパフォーマンスを達成できました。

写真

このアルゴリズムの計算の複雑さはまだ少し高く、パフォーマンス目標を直接達成するのは難しいことがわかったので、そのアイデアを活用してさらなる最適化を行いました。次の点は調査および改善する価値があります。

1. パターン分類はまだ少し複雑ですが、複雑さを軽減するには、実験を通じて最も代表的な特徴を見つける必要があります。

2. 現在のカーネルは解析解であり、実質的には L2 損失に相当し、線形フィルタリングであるが、微分可能な勾配学習を導入できれば、非線形フィルタリングやさまざまな損失を導入できる。

3. 現在のアルゴリズムは「パッチからピクセルへのマッピング」ですが、「 パッチからパッチへのマッピング」に変更すると、計算がより効率的になる可能性があります。

4. 最終的な推論結果には画質の問題が発生する可能性があるため、計算量の少ない後処理メソッドを追加することを検討してください。

写真

エンドサイドの超解像アルゴリズムは慎重に設計されていますが、それ自体の計算の複雑さにより、達成できる効果は依然として限られています。端末製品の開発であれば、これ以上の方法はないと思われます。当社の映像処理アーキテクチャでは、端末側の超解像入力映像、または配信された超解像レベルをクラウドからトランスコードします。高解像度ギアをカスタマイズすることにより、エンド側の高解像度効果を効果的に改善し、補償することができます実際には、RedVQA に基づいて元のビデオを高品質と低品質に分割します。高品質のビデオの場合、クラウド エンハンスメント アルゴリズムを使用して、超解像度後のテクスチャの詳細を効果的に改善できます。低品質のビデオの場合は、一部の圧縮損失を除去し、アーティファクトの増幅を回避することに重点が置かれます。

写真

以下は、ソリューション全体のオフライン評価です。上の画像はパフォーマンスデータです。60fps 540Pビデオの場合、超解像フレームレートを切り替えてもあまり低下せず、GPU使用率は20%増加し、メモリは約8M増加します(記事執筆時点では、アルゴリズムとパフォーマンスの最適化により、GPU とメモリの使用量がさらに改善されました。下)、基本的に発熱の問題はありません。次の表は、スーパー スコア ギアのコード レートと RedVQA 品質スコア データを示しています。スーパー スコア ギアは 540P ギアです。スーパー スコア ギアの生成には、適応シャープニングとディープラーニング強化を使用しました。比較したギアは A 720P ギア。計算の適時性と計算コストを考慮して、このギアには適応シャープニングのみがあります。スーパー スコアリング ギアは、720P ギアと比較してビット レートが 40% 節約され、平均品質スコアが小さくなることがわかります。エンドサイド スーパー スコアリングの後、平均品質スコアも 720P ギアを上回ります。スーパー スコアの結果と 720P ビデオの品質スコアの差の分布を詳しく見てみると、スーパー スコア後のすべてのビデオ品質スコアが 720P ビデオの品質スコアよりも高いわけではないことがわかります。一般に、RedVQA は大規模なビデオ品質を定量化する方法を提供します。現在、画質最適化の方向でのコール レートの精度はあまり正確ではありませんが、実際にはいくつかのトレードオフと戦略を立てることができます。それに備えて。

写真

上記は画質最適化の 2 つの例です。上の図では、スーパーディビジョン ギアのコード レートが 45% 節約され、RedVQA が 0.529 向上しました。下の図では、コード レートが 32% 節約され、RedVQA が 0.275 向上しました。これら 2 つの例から、超解像度ビデオには画質の利点と帯域幅の利点の両方があることがわかります。

写真

さらに 2 つの劣化ケースを見てみましょう。上の図では、スーパーセグメンテーション範囲のビットレートが 45% 節約され、RedVQA が 0.09 削減されています。下の図では、ビットレートが 46% 削減され、RedVQA が 0.13 削減されています。また、RedVQAの削減がすべて画質劣化となるわけではないが、ビットレート削減が大きすぎる場合、例えばどちらの場合も平均ビットレート削減40%を超える場合には、画質劣化の判定精度が向上することも分かった。前述したように、品質とコード レートの収益評価を通じてユーザー エクスペリエンスと帯域幅コストのバランスを改善し、ユーザー エクスペリエンスに影響を与える極端な劣化のケースを回避できます。

写真

また、市場のパフォーマンスをサポートするために AB 実験も実施しました。実験条件は、スーパースコアがオンになっており、ピーク帯域幅の 3 時間以内にスーパースコア レベルが解放された iPhone XR/XS 以降に基づいています。実験結果は比較的良好であり、全体的なQoEデータは変動しているが、超解像の全体的な効果は基本的に大きな問題がないことを示している、QoSデータは遅延率や起動失敗率などの技術指標が大幅に最適化されており、配信コード レートと帯域幅が節約されることはさらに重要なことです。

写真

写真

最後にまとめをします。コスト削減や効率化の観点から、経験とコストのバランスをどう取るかは誰もが悩む課題ですしかし、オーディオおよびビデオ処理の場合、経験とコストは常に「コインの裏表」であり、アルゴリズム開発とテクノロジーの反復は「ニーズとウォンツの両方」を達成するために行われます。技術的な観点から、私はオーディオおよびビデオ システムのインテリジェンスをどのように向上させるかというテーマのほうに関心があります。インテリジェンスの目標の 1 つは、「ニーズとウォンツの両方」を達成することであり、もう 1 つの目標は、より高いレベルを達成することです。システムの自動化と効率化を実現します。さらに、より優れた双方向技術統合とグローバル システム最適化機能は、よりインテリジェントなオーディオおよびビデオ システムを構築する効果的な方法となる可能性があり、人間の視覚認識に基づく品質評価は、オーディオおよびビデオ システムのインテリジェンスをサポートする重要なテクノロジです。 。最後に、端末側の超解像度の導入は、厳しいパフォーマンス要件、低い導入カバレッジ、困難な規模の定量化などの課題に直面していますが、これらの課題を解決するために、人間の視覚知覚品質に基づいてデバイスとクラウドを組み合わせた超解像度を設計しまし

写真

将来に向けて、私たちはよりインテリジェントな品質評価を実現し、きめ細かい品質評価を改善し、画質の最適化においてより良い役割を果たすことを期待しています。さらに、将来的には、クラウド「ナローバンド HD」ビデオトランスコーディングの最適化を継続し、インテリジェントなトランスコーディングのレベルが向上するにつれて、「ナローバンド HD」の効果とメリットは拡大し続けます。全体的な収益が増加する一方、画質分布のばらつきが大きくなるにつれて、複数の技術を統合した「狭帯域 HD」コード ストリームにより、品質評価の精度と一般化能力に対する要求も高まっていると判断しています。

エンドクラウドと超解像の組み合わせは非常に価値があり、検討可能な方向性です。全体的な目標は、エンドクラウドが緊密に連携してエンドサイドの超解像効果を向上させ、それによってより大きな利点をもたらすことを期待することです。ここで言う「緊密な連携」には、収益の観点から、ソリューション全体のデバイスとクラウド間の合理的な分割、超解像技術とコーデック技術の調整、デバイスの適応などの複数の側面が含まれます。 -側のコンピューティングおよび再生戦略。具体的には、より優れた超解像度トランスコーディングギアを反復し、より代表的でメタデータを利用する超解像度モデルを設計し、超解像度とエンコーディングの統合ソリューションを探索できます。

以上が私が共有しなければならないすべてです、ありがとう!

写真

ジャンハン

Xiaohonshu オーディオおよびビデオ アーキテクチャのビデオ画像処理アルゴリズムの責任者。パターン認識とインテリジェント システムの博士号を取得しており、ビデオ画像アルゴリズム、ヘテロジニアス コンピューティングの最適化などを研究対象としています。アルゴリズム エンジニアリングの共同設計と最適化が得意です。彼は、「デジタル TV SoC 設計と産業化」(主要な国家科学技術プロジェクト)、4K 120 FPS HEVC チップ アルゴリズム設計、写真/ショート ビデオ/ライブ ブロードキャスト画質アルゴリズムの開発と実装に参加または主導してきました。

おすすめ

転載: blog.csdn.net/REDtech_1024/article/details/132357370