Xiaohongshu Jianhan 氏との対話: よりインテリジェントなオーディオおよびビデオ システムを作成するために、クロスディレクショナル テクノロジを統合し、全体的な状況を最適化するにはどうすればよいですか? ...

38d268b6fcfe8d1c77fc5c1cc1545258.png

編集者注: ChatGPT が技術的な熱狂を引き起こした AI 時代において、よりスマートなオーディオおよびビデオ システムを構築することは、オーディオおよびビデオ分野の専門家にとって共通の目標となっています。

ただし、オーディオおよびビデオ システムのインテリジェンスについては、「千人の目には千のハムレットがある」ように、各実践者は独自の視点と理解を持っています。統一された標準的な答えはありませんが、Xiaohongshu のオーディオおよびビデオ アーキテクトである Jianhan にインタビューして、彼の心の中にある知性について語ってもらいました。人間の目と同じように品質を認識することは知性であり、最新の画像生成を使用することは知性です。画質を向上および修復するテクノロジー インテリジェント、AI を使用してコーデック効果を向上させるインテリジェントな機能。

インテリジェンスはこれに限定されません。オーディオおよびビデオ システムのより優れたインテリジェンスは、一見矛盾するビジネス目標を達成するための、双方向のテクノロジー統合とシステム全体の最適化機能にある可能性があります。動画アプリへの新興参入者として、Xiaohongshu はどのようにターゲットを選ぶのでしょうか?

Jianhan 氏は次のように述べています: まず、技術的な方向性の観点から、単一点の技術能力をビジネスの優先事項と組み合わせる必要があります。次に、クラウドの「狭帯域高解像度」など、長期的な価値とメリットをもたらすいくつかの技術フレームワークを反復することに焦点を当てます。 、デバイスとクラウドを組み合わせた超解像、人間の知覚の品質評価など、最終的にビジネス目標の最適なバランスを達成するために、ユーザーエクスペリエンスを保証し、コストを削減するインテリジェントなシステムを実現します。

うまくいくことを願っています。会話は次のとおりです。

LVS: LiveVideoStackCon 2023 Shanghai で共有するトピックの概要を説明してもらえますか?

Jianhan: 私が共有したトピックは「人間の知覚品質に基づく画質と帯域幅の最適化を組み合わせたデバイスクラウドの実践」です。これは、「コスト削減と効率の向上」を背景とした小紅樹の重要なプロジェクトでもあります。単純にデバイス側の超解像アルゴリズムの実装に注目すると、学界と産業界は実際にこの技術的な点に基づいて長い検討を行ってきましたが、さまざまなビジネス シナリオや統合システムでは、デバイス側の超解像技術は重要ではありません。ビジネス目標の点で異なり、技術的な方向性でも明らかな違いがあります。

たとえば、新しいハードウェア デバイスの場合、ハードウェア アクセラレータに基づいてアルゴリズムをカスタマイズおよび最適化するだけで済みます。しかし、ビデオサービスやAPPのエンドユーザーデバイスは多様かつ複雑であり、テクノロジーによって最適化されたユーザーエクスペリエンスを完全に評価することは通常困難であり、カバー率が収益規模に直接影響します。

このシナリオでは、デバイス側の超解像技術の進化の方向性は、もはや独立したアルゴリズムモジュールの設計と最適化ではなく、クラウド消費ギアの生産、人間の目での知覚品質評価から放送制御、および放送制御までのプロセス全体の組み合わせとなります。デバイス側の超解像度 各ビデオ処理リンクのエンドツーエンドの最適化により、エンド側の超解像度の可能性が大幅に解放され、上記の技術的課題がある程度解決されます。この共有化は、このテーマにおける体系的なまとめと実践であり、もちろん長期的な建設の方向性でもありますが、現時点では一定の成果は得られていますが、この枠組みのもとでは、技術的な余地が大いにあると考えています。今後の反復。

LVS: コンピューティング能力、コスト、ユーザーエクスペリエンスの三角関係についてどう思いますか?

Jianhan:静的な観点から見ると、技術的な最適化を行わずに、ユーザー エクスペリエンスを向上させるために、より大きなコンピューティング能力とより高いコストを使用することを検討できます。たとえば、大規模なコンピューティング能力は、より高い複雑性などをサポートできます。また、良い影響を与えるアルゴリズムの実装も向上します。アルゴリズム処理の適時性。ユーザー エクスペリエンスを向上させるために、ビデオ消費のビット レートを増やすことができますが、これにより帯域幅コストが増加します。あるいは逆に、ユーザー エクスペリエンスをある程度犠牲にして、コンピューティング能力とコストを節約します。オーディオとビデオの分野では、このようなトレードオフが数多くあり、特殊なケースも多くあります。たとえば、ビデオ消費のビット レートと解像度を上げると、一般にユーザー エクスペリエンスが向上しますが、ネットワークが良好でない場合は、ビデオがフリーズし、代わりにユーザー エクスペリエンスが低下する原因となります。したがって、私は各要因の長所と短所を分析し、各変数が現在のシステム状態にどのような影響を与えるかを確認し、特定のビジネス目標に向けてケースバイケースで分析して意思決定を行うことを好みます。

動的な観点から見ると、テクノロジーは常に反復されるため、技術的な最適化を通じてユーザー エクスペリエンスの向上とコストの削減を同時に実現できます。たとえば、各世代の現在のコーディング標準では、同じ品質でビット レートを 30% ~ 50% 節約できます。これは、ユーザー エクスペリエンスは基本的に変わりませんが、帯域幅のコストが大幅に節約されることを意味します。前述したデバイス側の超解像技術にも同様のメリットがあります。技術的な最適化に加えて、多くの戦略が有効になります。たとえば、現在、CDN の帯域幅コストはピーク期間に応じて課金されていますが、ここでの戦略はオフピーク期間のビット レートを上げてユーザー エクスペリエンスを向上させることができますが、帯域幅コストは増加しません。もちろん、ピーク時間を正確に予測するという問題もあります。

したがって、オーディオやビデオの分野では、点ではなくシステムとして、アルゴリズムとシステム戦略の観点から、一見相反するビジネス目標を同時に達成することができます。

8247ecbd9db913d021e845f0a75d7ced.png

LVS: ユーザーがより高解像度でより過激なビデオ体験を追求する傾向に直面して、ビデオ コーデック テクノロジは非常に重要ですが、この技術的方向性やその他の技術的方向性について、チームの目標はありますか?

ジャンハン氏:ビデオコーデック技術の反復は非常に重要で、現在、H.265世代の規格を導入し、高いカバー率を達成していますが、AV1規格も開発中で、実験的な検証も始まって​​います。将来的には H.266 も追随する可能性があります。

さらに、AI時代においては、さまざまな画質向上および復元技術、品質およびコンテンツ分析技術、インテリジェントコーディング技術など、よりスマートな音声およびビデオ処理を構築することが当社の目標の1つです。技術的な方向性としては、まずクラウド超解像技術を活用して1080P映像の比率を高めたり、一般シーンの質感や高精細映像の強化など、一点一点の技術力をビジネスの優先事項と組み合わせていきます。さらに、クラウド上の「狭帯域高解像度」、デバイスとクラウドを組み合わせた超解像、人間の知覚の品質評価など、長期的な価値とメリットをもたらすいくつかの技術フレームワークを反復していきます。

実際、オーディオおよびビデオ処理のインテリジェンスにはまだ多くの余地があり、個人的には、理解するには主に 2 つの課題があります。

1.オーディオとビデオの処理は単一の技術ではありません。現在の技術開発から判断すると、大規模なモデルでそれを実現することは困難です。よりスマートなビデオ処理システムには、高度な意味理解、低レベルの画像処理、コーデック技術が含まれる必要があります一種の融合であり、現在のアルゴリズムの方向性における典型的な人材像は、特定の技術的な点に焦点を当てることです。複合的な才能と、システムを理解しているアルゴリズムの人材には、将来ブレークスルーを起こすチャンスがあると私は信じています。

2.インテリジェンスとはビッグ データ ドライブを意味します。ChatGPT のトレーニング データは高品質の質疑応答、自己教師ありトレーニングによる大規模学習から得られますが、オーディオおよびビデオの分野では高品質で正確なデータ セットの構築はより困難になります。 、Groudtruth と劣化モデル 通常、オーディオおよびビデオのアルゴリズムが直面する最初の重要な問題は精度です。

現在、業界の探求は、画像生成テクノロジーを使用した画質向上アルゴリズムや、コーデック サブモジュールの効率を向上させる AI の使用など、シングルポイント機能のインテリジェンスに重点を置いています。これらはすべてです。私たちがフォローできる技術的な点はたくさんありますが、オーディオおよびビデオ システムのインテリジェンスを向上させる効果的な方法を見つけるために、横断方向のテクノロジー統合とグローバル最適化機能についてさらに調査と実践を行っていきたいと考えています。

LVS: 主観的な良し悪しは人それぞれです。では、画質最適化アルゴリズムが主観的な品質向上に効果的かどうかを確認するにはどうすればよいでしょうか?

ジアンハン: この質問は、実際には、前の質問への回答で述べられたこと、「オーディオとビデオの分野では、高品質で正確なデータセットを構築することがより困難になるだろう」ということを裏付けるものです。品質についての判断は人それぞれです。画質の事です。ただし、参考となる国際基準があります。簡単に言うと、制御可能な環境において、専門家による評価と群衆テストを通じて画質が向上したかどうかを判断します。群衆テストは、複数の人々が同じビデオを収集した場合の統計的手法による評価結果です。個人差をなくすため、必ずしも特定の人の判断基準を満たすものではありませんが、多数派の意見を代表したものです。

もちろん、時間と運用コストの関係から、専門家の主観的な評価や公開テストは少量のデータでしか検証できず、実際の打ち上げは市場でテストされる必要があります。いくつかの主要なビジネス指標と技術指標、市場でのパフォーマンスを比較します。AB 実験には多くの影響要因があり、そのすべてが画質に関係しているわけではないため、実験データを計画と組み合わせて分析する必要があることに注意してください。

LVS: 非常に大規模な UGC コンテンツ コミュニティであるため、Xiaohongshu の画像やビデオのソースは非常に広範囲に及ぶと言えます。そのため、実際の撮影環境が制御されず、コンテンツの品質が保証できない場合があります。このような品質評価の問題にどのように対処しますか?

ジャンハン「この問題を解決するために、今年、AI ベースの非参照ビデオ品質評価アルゴリズムを実装しました。人間の目で知覚される品質に基づいて、あらゆるビデオの絶対的な品質を判断します。おっしゃるとおり、UGC 動画の多様性は、データ駆動型にとって重要 これは AI アルゴリズムにとっての課題です。さらに、ビデオがビデオリンク全体を通じて処理されると、品質が大幅に変化し、特殊効果編集、マルチレベルビデオエンハンスメント、トランスコーディングなどの複雑さが増します。したがって、データセットは慎重に設計する必要があり、オンラインでの主な品質問題を含むだけでなく、オンラインから直接収集することが難しいいくつかのケースも積極的に構築する必要があります。重要な点は、使用するデータサンプルをできるだけ少なくする方法です。ここでは、データサンプリング方法などのいくつかの技術的支援があります。

アルゴリズムの設計に関しては、品質の特徴を効果的に抽出する方法に焦点が当てられています。ここでは、ビデオ リンクの編集やトランスコーディングが品質にどのように影響するかなど、品質の問題のプロセスを完全に理解する必要があります。いくつかの重要な点をまとめます。あなたと共有すべきポイント:

1. 全体的な構成と局所的なテクスチャ情報の両方が重要であり、品質関連の特徴は局所的なテクスチャに反映され、劣化の度合いは全体的な認識に依存します; 2. 広範囲の時空間情報と依存関係を捕捉し、人間の品質認識は全体的な品質に関係します意味的理解、注目領域、創造的意図の理解など。多くのビデオ処理操作は、ビット レートの割り当て、ROI エンコードなど、広い時空間範囲の品質に影響を与えます。3. 品質評価データ セットの規模と完全性は、分類や認識などの CV タスクのデータ セットよりもはるかに低いです。品質特徴の抽出を明示的に支援する何らかの手段が必要です。1 つの方法は、順序付けされた品質サンプルを追加するか、品質評価エージェントを使用することです。アルゴリズムのタスクは、データ強化と品質特徴の自己教師あり学習に使用されます。

5ade422295dd6325e90516f24b0cd268.png

写真のQRコードをスキャンするか、「原文を読む」をクリックする と、さらに興味深いコンテンツが表示されます

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131526050
おすすめ