オーディオとビデオの品質検査と画質評価 - QoS および QoE 指標の保護

  //  

Tencent は 21 年以上のオーディオおよびビデオ技術を蓄積しており、RT-ONE グローバル ネットワークを独占的に所有しています。さらに、リアルタイム オーディオとビデオ、クラウド ライブ ブロードキャスト、クラウド オンデマンド、インスタント メッセージング、メディア処理などを含む業界で最も完全な PaaS および aPaaS 製品ファミリーを構築し、さまざまな主要なシナリオにローコード ソリューションを提供しています。 、開発者や企業が高品質のオーディオおよびビデオ アプリケーションを迅速に起動できるようにします。以下では、Sun Xiangxue 氏に、Tencent Cloud がオーディオとビデオで採用している品質検査および画質評価戦略について共有していただきたいと思います。

文/孫祥雪

エディタ/LiveVideoStack

私は Tencent Cloud Audio and Video の Sun Xiangxue です。現在、Tencent Cloud Media Processing (MPS) 製品のバックエンド開発を担当しています。今日皆さんと共有したいトピックは、オーディオとビデオの品質検査と画質評価です。品質検査という概念は皆さんにはなじみがないかもしれませんが、実は昔、ラジオやテレビの分野ではビデオの品質を技術的な観点からレビューするビデオテクニカルレビューという別の関連名称がありました。コンテンツ レビュー、誰もがビデオ コンテンツをレビューする必要があります。私はビデオ コンテンツに比較的詳しく、ビデオにポルノや政治的暴力が含まれているかどうかをレビューします。品質検査では、ビデオの問題を技術的な観点から検査します。

1ff79ea708b47c9d83381dbe02251e22.png

この画像に見覚えがあるかもしれませんが、これは現場の機器が原因でプレイできないわけではなく、これ自体はプレイできないスクリーンショットです。誰もが自宅でテレビや携帯電話のビデオ、特に古いビデオ ソースを視聴しているときに、この問題が発生することがあります。多くの動画は端末との相性問題があり、再生できない場合があります。コンテンツプロバイダーにとって、この種の再生エクスペリエンスは非常に劣悪であり、一部の顧客の喪失につながる可能性さえあります。品質検査はこの問題を解決するために導き出されたソリューションであり、問​​題のあるビデオがオンライン上に公開されたり、ユーザーが要求したときに異常であることが判明したりすることを防ぎます。

今回は、概要、フォーマット診断、コンテンツ品質検査、非参照スコアリング、例外修復、エクスペリエンステストの6つのパートに分けて紹介します。

-01-

概要

2966e74f75ad428788c2ce883f0719fe.png

撮影、収集、エンコード、パッケージ化から、送信、カプセル化解除、デコード、レンダリング、再生までのビデオのライフサイクル全体を通じて、品質の問題が発生する可能性があります。2つの例を挙げると、今ショートビデオが流行っているのは皆さんご存知で、ショートビデオ撮影ではカメラモーションというおなじみの言葉があります。カメラを上手に動かせばテクニカルと言われますが、下手に動かすと目まいがしてしまうのは、撮影過程から持ち込まれた品質の問題です。もう 1 つの例はエンコード プロセスです。動画には多くのコーデック形式とパッケージ形式があり、標準以外のエンコードを行うと、端末や携帯電話のモデルによって互換性の問題が発生する可能性があります。単体の動画の互換性チェックだけでも時間と労力がかかりますが、膨大な動画データの品質管理はさらに頭の痛い問題で、こうした問題のある動画を公開前にいち早く発見するのが品質検査の役割です。

93ed1f6ce222e81ba9e488957d8d2645.png

この問題を解決するために、Tencent Cloud Media Processing (MPS) はメディア品質監視のためのフルプラットフォーム リンクを構築しました。これは主に、メディア品質検査、後処理修復、再生の3 つの部分で構成されます。メディア品質検査は、最初に問題を特定し、後処理と修復を実行してから端末で再生する役割を果たし、再生後は、ユーザーの QoE および QoS 行動データを通じて品質検査アルゴリズムにフィードバックを提供します。

メディア品質検査も内部的にはフォーマット診断、コンテンツ品質検査、非参照スコアリングの 3 つの部分に分かれています。フォーマット診断は、ビデオの MP4、AV1、ASF フォーマット、オーディオの MP3、AAC などのビデオ パッケージング フォーマットの標準的な検査に焦点を当てています。パッケージ形式をチェックすると同時に、エンコード仕様もチェックされ、ビデオが公式仕様に従ってエンコードされているかどうかが確認されます。フォーマット診断により、ビデオにフォーマット上の問題がないことが判明し、画面のコンテンツ品質検査が実行されます。画像が正常に再生できるか、ジッター、ブレ、白とび、ノイズなどが発生していないかを確認してください。オーディオ面では、音量ムラやノイズ、雑音などの問題を中心に解説していきます。コンテンツの品質検査が完了したら、明瞭さ、彩度、深さ、コントラストに基づいて画像全体の構成と色を美的に分析し、参照なしでスコアを付けます。スコアによって動画を差別化する: ユーザーに動画を推奨する場合、スコアの高い動画を推奨することで、完了率やコレクションへのコンバージョン、クリック数、注目度が向上します。

問題を特定した後、対応する修理を行ってください。たとえば、ジッターがひどい場合はトランスコーディングを使用して揺れを解消したり、非常に暗いシーンを色補正したり、フォーマットに問題がある場合はトランスコーディングを修復したり、その他にも多くの修復方法があります。

後処理や修復を行った後、端末に配信されて再生されます。再生中に、視聴数、完了率、QoE、QoS などのユーザー データが収集され、アルゴリズムにフィードバックされます。クラウド上でお客様とつながっていると、ユーザーの考え方も常に変化していることが徐々に分かり、以前は精度や再現率などの指標データを追い求めていましたが、今ではQoSやQoEデータの向上を重視するようになりました。どんなに優れていてもabには及ばない 議論する前にメリットがあるかどうかを確認してください。

多数の管理された実験観察を通じて、品質検査中に問題が見つからなかったビデオの場合、品質に問題が見つかったビデオよりも QoS および QoE データが大幅に優れていることがわかりました。品質検査時に問題があった動画と問題のなかった動画の比較です。2 番目の比較は、問題のあるビデオの修復前と修復後の比較であり、修復されたビデオは確かに品質が向上し、ひいては Qos と QoE が向上します。3 番目の種類の比較は、より一般的で、参照せずにビデオをスコアリングし、オンラインでビデオをさまざまなセグメントで再生した後、ユーザーの再生動作が明らかに異なることがわかります。スコアの高い動画は、スコアの低い動画よりも完了率、再生回数、視聴時間が大幅に長くなります。これは側面からも検証できます: 品質検査では問題を見つけることができます。問題が見つかった場合は実際に修復できます。参照なしで採点には区別があります。

f7b0c44877ba1f462491cced61c7a8fc.png

私たちは、フォーマット診断、コンテンツ品質検査、非参照スコアリングをメディア品質検査の 3 本柱と呼んでいます。再生できるかどうかの問題をフォーマット診断で解決します。コンテンツ品質検査は、放送が良いかどうかの問題を解決します。参考にせずに採点することで、放送が楽しいかどうかという問題を解決できます。これら3つの軸について、以下で詳しく紹介します。

-02-

フォーマット診断

3a90ea584c4850e712aece51dca02570.png

クラウド上でメディア処理を行う場合、よく発生する 2 つの問題があります。1 つ目は、ビデオに問題があることですが、何が問題なのかがわからないため、トラブルシューティングが非常に困難です。2 番目の問題は、多くの再生プラットフォームで安定して再生する方法です。これらは、メディア処理における 2 つの大きな課題でもあります。つまり、例外フロー分析とクロスプラットフォーム互換性の問題です。

e0e0e95ff83835d163f4c0efdb9776d6.png

Media Diagnosis は、メディア ストリームを診断するクラウド オーディオおよびビデオ処理サービスであり、ライブ ストリームだけでなく、オンデマンドのオフライン ファイルもサポートしています。フロー情報、時間情報、フロー状態、コンテナカプセル化、コードフロー診断の多層検査により、実際にカプセル化形式や符号化形式の仕様と照らし合わせて一つ一つチェックし、異常な問題をリアルタイムに発見し、ユーザーにフィードバックします。ユーザーが問題の場所をすぐに特定できるようになります。オフライン ファイルの診断レポートを生成でき、ライブ ストリームはリアルタイムでコールバック イベントを生成し、ユーザーはコールバック イベントに基づいてストリームの切り替え、ストリームの中断、再プッシュなどの操作を実行できます。

12dfdf3a410e2e4f6829b65d53115008.png

いくつかの診断アプリケーション シナリオを以下に示します。最初のシナリオは、ライブ ストリームのリアルタイム監視に関するものです。重要なライブ配信アクティビティについては、リアルタイム監視を通じてライブ配信プロセスをリアルタイムに監視し、ネットワークの異常、ストリームの中断、およびライブ配信に影響を与えるその他の状況に対してアラームを発行することで、顧客が迅速に介入して保護することができます。重要な生放送ビジネス。右の写真はリアルタイム監視画面のスクリーンショットです。従来の監視構成には、停止検出、フォーマット異常検出、低フレーム レート検出などが含まれます。将来的には、コンテンツの品質検査と参照不要のスコアリングに関連する機能が開始される予定です。

f560c2c8cd2eb33267d9b0fea07a1334.png

2 番目のシナリオは、OTT シナリオの検出です。ETSI TR 101-290 標準は、DVB システムの品質を測定するための参照標準であり、主に OTT シナリオでの MPEG-TS ストリーム検出に使用されます。MPEG-TS ストリームには 3 つの優先要件が定義されており、1 つ目は通常のデコード (TS 同期コード チェック、PAT、PMT チェックなどを含む) に影響を与えるかどうか、2 つ目は継続的かつ正確なデコードに影響を与えるかどうか、3 つ目はデコードに影響を与えるかどうかです。特定のアプリケーションに影響します。プロセス全体が完了したら、問題があるかどうかを判断し、リアルタイムのフィードバックを提供できます。

09ae2d13b175f979e4fa97942a8791bc.png

3 番目のシナリオは、再生互換性の検出です。オンラインでの質問の 3 つの例を次に示します。

最初の質問は、Apple デバイスの互換性についてです。Safari でエンコードしたビデオ ストリームは音声のみが再生され、画像が再生されないとユーザーが報告しましたが、トランスコードしたときにはこの問題は発生しませんでした。調査の結果、TS ストリーム内の H.264 コード ストリームには AUD がないことがわかりました。AUD (Access Unit Delimiter の完全名) は、H.264 アクセス ユニット デリミタです。H.264 標準の AUD の nal_unit_type は 9 で、H.265 の nal_unit_type は 35 です。H264 ではオプションですが、 TS 仕様により必須です。AUD をご持参ください。アクセスユニットセパレータがない場合、Apple デバイスで上記の問題が発生します。

2 番目の問題も、Apple デバイスの互換性の問題です。H.265 でエンコードされた MP4 形式のビデオを再生できません。トラブルシューティングの結果、H.265 fourcc が hvc1 ではなく hev1 に設定されていることがわかりました。これは、hev1 または hvc1 が 2 つのコーデック タグであり、Apple が 265 hev1 をサポートしていないためです。

3 番目の問題は、Dolby Digital Plus オーディオが一部のセットトップ ボックスで再生できないとユーザーから報告されたことです。これは、Dolby Digital Plus には TS に ATSC と DVB の 2 つの規格があり、一部のセットトップ ボックスは ATSC 規格の Dolby Digital Plus をサポートしていないためです。Tsduck ツールを使用して、ts ファイルの PMT 内の eac3 の stream_type をチェックしたところ、dvb が 0x06、atsc が 0x87 であることがわかりました。このような問題のトラブルシューティングは非常に手間がかかりますが、Tencent Cloud Audio and Video Quality Inspection の診断システムを使用すると、問題をすぐに特定できます。

-03-

コンテンツの品質検査

フォーマット診断で異常が見つからなかった場合は、コンテンツの品質検査を行う必要があります。

309b0a9f741c367e4c0bf520d21b9be0.png

コンテンツ品質検査は、ビデオ画面内のジッターゴースト、ぼやけ、低照度、露出オーバー、黒い境界線、白い境界線、黒い画面、白い画面、ぼやけた画面、ノイズ、モザイク、QR コード (バーコード、アプレットコードを含む) をインテリジェントに検出できるだけでなく、 、QRコード)など、異常なビデオオーディオトラックと異常な音声セグメント(ミュート、低音、ソニックブームを含む)を自動的に検出することもできます。

0db1805dffcbc0d9b9acb8e1bbd19fa4.png

左から右、上から下の順に、ゴースト、ぼやけ、低光量、黒い境界線、ぼやけた画面、露出オーバー、ノイズ、QR コード、モザイクの例が示されています。

9c65fdc1b3c74df6526e897e797209b9.png

まずジッター検出について見てみましょう。画像の 2 つのフレーム間の相対的な動きは、ほとんどのシーンのグローバル モーションとシーンのごく一部のローカル モーションに分解できます。グローバル モーションは一般にカメラの主観的な動きを表します。カメラキャリアが不安定なため、連続するフレーム間で上下の動きの軌跡が発生します。3 番目の図は、フレーム t と t+1 の間の動きが、平行移動、回転、スケーリングに単純化されていることを示しています。

e819c62d9ff42ae8e4fec2dbe0d07fa3.png

左側のビデオはカメラキャリアが不安定なため非常に揺れており、長時間見ているとめまいを感じやすくなります。隣接する 2 つの画像フレーム間の間隔は非常に短く、ねじれの変化がほとんどないため、その動きをモデル化するには、一般に並進、回転、スケーリング モデルが使用されます。最初の行の式は、平行移動の変更、つまり X 軸と Y 軸のピクセルの平行移動を記述します。最後に、演繹により最後の行の式が得られます。このモデルに従って、2 つのフレーム間の移動値、回転値、スケーリング値が計算され、ジッターが発生するかどうかが判断されます。実際のアプリケーション シナリオでは、一定期間内の変化の平均をカウントし、平均値がしきい値に達すると、画像のジッターが深刻であると見なされます。ライブストリーミングも同様に計算されます。

ee48f4090c4da5a1d62c96839d486cea.png

黒と白のエッジ検出のアルゴリズムは比較的単純です。グレースケール イメージの変換後、2 つのしきい値関数を使用して、グレースケール イメージ上のすべての黒と白のエッジを境界ゼロのボックスに処理します。このゼロの境界がどこにあるのかさえわかれば、黒と白のエッジの境界がどこにあるのかも自然に計算できます。黒と白のエッジがあるかどうかを知ることができるだけでなく、黒と白のエッジの境界がどこにあるのかも知ることができます。

アルゴリズムは複雑ではありませんが、それでもいくつかの悪いケースが発生します。最も一般的なケースは、多くの TV シリーズの冒頭に表示される最初のエピソードのフレーム全体が黒である場合ですが、このアルゴリズムでは、最初のエピソードを除くすべてのフレームが黒と白のエッジとして返される可能性があります。この目的のために、このような悪いケースをカバーするために、ベベル角度と同様の検出を追加しました。

86f4619eadc67aee102a2941db1e47e1.png

純色スクリーン検出アルゴリズムを思い浮かべるとわかりやすいかもしれませんが、従来の演算は、グレースケール画像の後のヒストグラム内のピクセルの割合をカウントすることです。単一ピクセルの割合が特定のしきい値を超えると、それは単色スクリーンとみなされます。右側の図は、オンラインでの悪質なケースを示しています。ユーザーからは、人間の目には写真が「真っ黒」に見えるが、アルゴリズムではそれが検出されなかったとの報告がありました。そのグレー値を計算すると、単一の点が特定のピクセル値に分布しているのではなく、複数のピクセル値の隣接する領域に分布していることがわかりました。現時点では、単一点ピクセルの割合を数えるだけでは期待に応えられません。そこで、隣接するピクセルの累積値の割合を検出するスライディング ウィンドウに似たメカニズムを追加し、このような悪いケースを解決しました。

-04-

参考評価なし

14e25afff6dff3042a9347109f5b4ac3.png

スコアリングについてよく耳にするのは、VAMF、PSNR などです。これらは参照ソースに基づいて計算する必要があります。非参照スコアリングの特徴は、参照元を必要とせず、写真の構図や彩度などから直接スコアを計算することです。このモデルは深層学習モデルに基づいており、ビデオの明瞭さ、構成、色などの複数の側面を包括的に考慮してビデオ画像のリファレンスフリーの品質評価を実行し、それによって包括的なビデオ品質スコアリングの提案を提供します。出力スコアは 40 ~ 100 で、40 ~ 60 が不良、60 ~ 80 が平均、80 ~ 100 が良好の 3 段階に大別されます。

68b3fa8cf28aa1f313a9bea9099f158c.png

ライブ ブロードキャスト シーンでは、スコアリングを使用してアンカーがリアルタイムで画像や照明などを調整できるようにすることで、より良いライブ ブロードキャスト エクスペリエンスを実現できます。この図は、深層学習のコア データ ネットワークを示しています。左側はビデオから画像フレームへの前処理です。ここで使用する入力サイズは 720p、つまり 672×448 に近いです。このサイズが選択される理由は、深層学習畳み込みニューラル ネットワークの入力が通常 224 であるためです。より多くの画像特徴を取得するために、高さとして 224×3、幅として 224×2 を使用します。混合列構造を使用すると、ブロック 4 が特徴抽出入力として使用されるだけでなく、各レイヤーの出力が収集されるため、品質予測に対する低レベルの特徴の影響が増大します。同時に、異なる動画間の順位を参照することで学習効果を高めます。右側は、アルゴリズムによってオンラインで測定された PLCC および SRCC データです。横軸は予測スコア、縦軸はmosスコアです。中央の実線に近いほど人間の目の主観スコアとの相関が高く、アルゴリズム指標が優れていることを示します。

6e3ef5c5d1cb180083553fadf6c53674.png

さまざまな評価セグメントを持つ動画の例をここに示します。

-05-

例外の修正

Sanbanaxe を通じて問題を検出した後、対応する修復戦略も提供します。いくつかの異なるシーンでの修復前と修復後の比較写真をいくつか示します。左側の図は、スマートウォーターマーク除去の効果を示しています。透かしを削除した後、元の効果に近づけるために透かしの周囲のピクセル値に従ってフィッティングされます。当初はガウスブラーを直接適用する戦略をとっていましたが、ユーザーがそれに気づくと非常に唐突で目を引くため、その後、不足している部分を GAN ネットワークを使用して補おうとするようになりました。

右側の図は、デジッタリングの影響を示しています。これは、トランスコーディングによって除去できます。同じビデオをはっきりと見ることができ、ジッターが大幅に軽減され、ビデオ全体の動きがよりスムーズになります。

1a8806fc368af43ae4a04301da5f6184.png

ビデオに白と黒のエッジがあることが検出されると、黒と白のエッジをインテリジェントに削除できます。黒と白のエッジを削除した後、以前と同じ解像度を維持するために、ビデオを引き伸ばして字幕を翻訳しました。ただし、注意深い学生は、引き伸ばした後、画像の比率が少し奇妙であることに気付く可能性があるため、現在、GAN ネットワークや大きなモデルを使用してエッジの詳細を埋めることも試みています。写真が暗い場合、色を強調することができます。下の写真の左右のコントラストは非常に明白です。

0b421cc6b571c0f9bcfa8173f9238fd7.png

左側の画像には傷、ノイズ、圧縮、低解像度があります。中央の画像は、画質の推定と修復、インターレース解除、傷の除去、ノイズの除去、圧縮復元などの操作を行った結果です。右の写真は、画質向上、解像度向上、顔強調、鮮明度向上後の効果です。下の写真も古いテレビシリーズを復元したもので、スーパースコアリング、フレーム挿入、色強調などの処理が使用されており、改善効果は明ら​​かです。

d2fdf901dfe1bae65fa03aa2b1dca654.png

オーディオ レベルでは、ノイズ リダクションによってオーディオ ノイズを除去したり、ボリューム イコライゼーションを使用してオーディオ内のポップ音を低減し、低音を改善してサウンドをより自然にすることができます。また、オーディオを美化して一部のノイズを除去することもできます。そして歯擦音。

-06-

体験テスト

上記の機能に関して、Tencent Cloud はエクスペリエンス テスト用のインターフェイスをいくつか提供していますので、それらに注目してください。

オフライン: https://cloud.tencent.com/document/api/862/37578

ライブブロードキャスト: https://cloud.tencent.com/document/api/862/39227

モニタリング: https://cloud.tencent.com/document/product/267/79959

オンデマンド: https://cloud.tencent.com/document/product/266/94242

皆さん、ありがとうございました!


871315f59966bbb5548f9864f28ef09b.png

画像内のQRコードをスキャンするか、「元のテキストを読む」をクリックしてください 

LiveVideoStackCon 2023 深セン駅への直接アクセス チケット購入チャネルの 10% オフ

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132769500