品質と効率の両立:メディアサービスの革新的な「トップデザイン」

メディアサービスを行うには、抽象的な思考が骨の髄まで刻み込まれていなければなりません。

ビデオの波は激しく、生成人工知能 AIGC は高速で反復され、エクスペリエンス要件とアプリケーション シナリオはますます多様化しています...「ビデオの生産性」の変革に直面して、複雑な外観からオーディオおよびビデオ業界の「真のニーズ」を洞察できるでしょうか?

複数の当事者のニーズを満たす洗練されたメディア サービス設計はあるでしょうか? その価値を実現するにはどうやって「着地」するのか?「持続的な活力」を保つ秘訣は何でしょうか?

AIGC と大規模モデルの機能により、メディア サービスの「完全なインテリジェンス」はどのように進化するのでしょうか?

この記事は、「Alibaba Cloud Video Cloud」のメディアサービス責任者であるIMMENSE、Zou Juan、およびLiveVideoStackによって企画およびインタビューされました。

「本当のニーズ」を見つめ直す

大手ビデオ業界の本当の「ニーズ」とは何でしょうか?

映像の分野において鍵となるのは、映像の制作と消費にほかなりません。次に、大手ビデオ業界の本当の「需要」については、ビデオ制作ビデオ消費という2 つの側面から議論することもできます。

ビデオ制作側にとって、迅速かつ効率的なビデオ制作は、視聴者をリリースして引き付ける機会をつかむことができ、同時に、より高品質で革新的で包括的な体験を提供するビデオ コンテンツは視聴者を維持することができます。

動画消費者側にとって、最も重要なのは「体験」です。題材が斬新で面白く、内容が豊富で「得感」があること、動画の映像や音声が感覚的効果に優れていること、得られる情報が「直接」で新鮮なものであること……。

ニーズは多様であるように見えますが、実は生産ニーズでも消費ニーズでも「適時性の高さ」と「品質の高さ」という2つのキーワードが考えられます。

「適時性の高さ」と「品質の高さ」は両立できるのでしょうか?

「適時性の高さ」には生産性や制作効率の向上が求められ、同じ期間内により多くの映像コンテンツが制作されることを意味し、規模(量、期間、業種、シーン)の拡大にもつながります。

規模的には「適時性の高さ」と「品質の高さ」は相容れないように思えますが、「クラウドコンピューティング」や「人工知能」の時代が到来すると、状況は大きく異なります。

クラウド コンピューティングは、大規模で同時実行性の高い柔軟なビデオ処理機能を提供するだけでなく、さまざまなビデオ サービスや複数のビデオ シナリオに最適な編成およびスケジューリング方法を使用して、ピークをずらしたり、混合して実行したりすることで、2 つの次元の「スケール」を実現します。さらに、クラウドは 1 つのビデオの高品質特性を完全に再現することができるため、「高品質」ビデオのスケールを迅速に実現できます。

これに基づいて、AI の継続的な開発と深化に伴い、インテリジェントな能力は、一部のシナリオでは従来の人的リソースよりも正確かつ効率的となり、大規模な「高適時性」と「高品質」にも貢献します

デジタル インテリジェンスの新時代では、クラウドと AI が緊密な統合に向かって進んでおり、AIGC の爆発的な増加により、AI はもはや特定のリンクにおける単一の機能としてのみ使用されるのではなく、すべてが「完全なインテリジェンス」に向けて進化しています。

「最上級のデザイン」と「エンジン」

「コンテンツ制作革命」に直面したクラウドベンダーの次のステップは何でしょうか?

クラウド ベンダーは、B にとって当然の役割です。業種、ビジネスシナリオ、ニーズが異なる顧客により、求められる機能、性能、適時性、導入効果は大きく異なります。

したがって、クラウド ベンダーにとって、オープン性、柔軟性、マルチシナリオの問題を解決する必要があります。

拡張するには、ビデオのリンク全体がコレクションから始まり、制作、処理、管理、配布、消費を経て、各リンクには必要なメディア アトミック機能が多数含まれています。さまざまな業界のさまざまなシナリオや顧客ニーズに直面して、これらのアトミック機能の深さと組み合わせは大きく異なります。

したがって、要約、洗練、抽象化を経て形成される統一的な「トップレベル設計」は、クラウドベンダーにとっての「魔法の武器」となる。

根源を求めて「トップレベル」で解決策を求めるにはどうすればよいでしょうか?

まず、メディア・アトミック・サービスを「解体」し、次に「再編」することだ。

ここでは、第一に、ビデオリンク全体のメディアアトミックサービスをきめ細かく分割し、各サービスを深化する必要があり、第二に、一連の柔軟なオーケストレーションメカニズムを使用して、顧客の想定、シナリオ、ビジネスフローに応じてこれらのアトミックサービスを自由に構築および組み立てることを実現する必要がある。

さらに、それは基盤となるメディアテクノロジーの統一された設計です。

ビデオ処理プロセスは、カプセル化解除、デコード、前処理、エンコード、カプセル化といういくつかの主要なリンクで構成されています。統一されたメディア処理フレームワークを構築し、これらのリンクを整理し、複数のアルゴリズムをサポートし、プラグインを柔軟に統合し、さまざまなフォーマットを処理するには、ダウンリンク アルゴリズムとアップリンク スケジューリング用の「メディア エンジン」が必要です。

メディアアトミックサービスの「解体」と「再編」により、メディアサービスの「最上位層」で柔軟に配置できるビジネスフローを構築し、最下位の「実行層」で高適時性、高パフォーマンス、豊富な機能を実現するメディアタスクの基盤となる統合「メディアエンジン」を構築します。

最後に、この 2 つの間には、接続層として統合された「メディア分散サービス フレームワークとメディア メタデータ システム」が必要です。これには、製品間およびシナリオ間の統合メディア リソース OneMediaID、統合ワークフロー、統合メディア ビジネス フロー メッセージ処理メカニズム、統合メディア タスク パイプライン スケジューリング メカニズムなどが含まれます。

その結果、統一された一連の「メディア サービス」が形成されました。

その中でもメディアエンジンは当然の「エンジン」ではないでしょうか?

メディア サービス全体の基礎となるコアであり、すべてのメディア処理およびメディア制作タスクの実行者である「メディア エンジン」について説明しましたが、ダウンリンク アルゴリズムとアップリンク スケジューリングを真に実現するには、従来のメディア処理タスクだけでなく、さまざまな AI タスクも処理する必要があります。

「メディアエンジン」には、「アレンジメント層」技術と「カーネル層」技術の両方が含まれます。ここでいう「配置」とは業務フローの「配置」ではなく、シングルタスク処理の各リンクの「配置」やオペレータの「配置」を指します。

統合されたパイプラインと戦略を通じて、「メディア エンジン」は、さまざまなタスクの複数のパラメーターの組み合わせを柔軟にサポートし、これらのパラメーターの組み合わせの実行効果によって、画質、パフォーマンス、ビット レート、適時性などの多次元の重みの総合的な最適化を実現できます。

さらに、「メディア エンジン」はタスクの最適な実行戦略も担当します。

例: 全体実行ですか、それとも並列実行ですか? スライスレベルの並列処理ですか、それともフレームレベルの並列処理ですか? 特別なコンポーネントを呼び出したり、特別なモデルを使用したりする必要がありますか? また、オペレーターには依存関係がありますか? ... このようなメディア エンジンの意思決定能力を、私たちは「メディア ワーカーの脳」と呼んでいます。

このような頭脳配分のもとで、タスクの最適な実行戦略を追求することは、「高品質」と「高適時性」を追求することでもあります。

持続的な活力: 柔軟、オープン、マルチサービス

プラットフォームの継続的な活力の源は何でしょうか?

Alibaba Cloud Video Cloud は ToB クラウド ベンダーとして、マルチサービス、柔軟性、オープン性の問題を解決する必要があるため、「トップレベルの設計」が繰り返し強調されています。

お客様のビジネスの個性や特性を考慮する必要がありますが、すべてをカスタマイズすることはできませんので、製品、モジュール、サービス、APIの設計においても、常に要約、洗練、抽象化する「骨の髄に刷り込む」抽象思考が必要です。

したがって、「トップレベル設計」は、各ビジネスセクターまたはモジュールが独自の「快適な」システムで「野蛮な開発」を防ぐことができ、すべてが全体的な観点から計画され、検討されます

よく見てみると、メディア サービスの「トップ デザイン」は、まず既存のニーズと顧客シナリオに基づいており、メディア サービスの 5 つの主要モジュール (メディア アグリゲーション、メディア処理、メディア制作と制作、メディア管理、およびメディア消費) に従って、メディア機能が分類および要約され、「再利用性」に基づいて、さらに細分化されたアトミックなメディア機能に分割され、1 つ以上の共通抽象化レイヤーを通じてさまざまな範囲のサービスが実現されます。

たとえば、メディア制作および制作モジュールでは、メディア サービスはアトミック VideoDetext 字幕サービスを提供するだけでなく、より包括的な編集および合成サービスも提供します。

同時に、比較的固定された部分と変更された部分を分離し、システムにいくつかの組み込みメディア プロセスを提供し、顧客の開発の困難さを軽減する必要があります。顧客がより柔軟な対応を求めるシナリオでは同様のプログラム可能なスクリプトや戦略もカスタマイズ用に設計されています。

オープン性は、メディア サービスのトップレベル設計におけるもう 1 つの懸念事項です。

スマート メディア サービスのオープン性は次の点に反映されています。Alibaba Cloud 製品の関連プロトコルと機能をサポートすることに加えて、国際または国内の標準プロトコル、一部のサードパーティ メーカーのプロトコルと機能もサポートします。

たとえば、低遅延伝送の分野では、インテリジェント メディア サービスは、独自の RTS のサポートに加えて、LL-HLS、LHLS、Dash/CMAF などもサポートしています。

別の例として、メディア処理サービスの入出力として Alibaba Cloud OSS をサポートすることに加えて、AWS S3 と HTTP URL もサポートします。

また、自社開発の音声・映像およびAIアルゴリズムのサポートに加え、セキュリティ検証を通過したサードパーティAIオペレーターへのアクセスもサポートします。

私たちは、オープンさと協力だけがテクノロジーを存続させることができると信じています。

「トップデザイン」は「適時性の高さ」をさらに高めることができるのか ?

「トップデザイン」によってマルチサービス化、フレキシブル化、オープン化の壁を打ち破ることができれば、おのずと「高適時性」が高まります。

さらに詳しく見てみると、これにはテクノロジーの 4 つの側面が含まれます。

1 つは、エンジニアリング アーキテクチャのレベルで「並列」処理フレームワークを設計および実装し、ビデオ全体またはタイムライン Timeline を Split に分割し、「並列」処理を実行してから「マージ」することです。

2つ目は、アルゴリズムの最適化、命令セットの最適化、エンジン層でのアルゴリズムのエンジニアリング最適化、パイプラインの最適化、アルゴリズムとスケジューリングの統合最適化などを含む「シングルチップ」タスクの「パフォーマンスの最適化」を実行し、ソースファイルの適応、タスクパラメータの特性、モデルと構成、リソースの水位などの多次元の条件を考慮してタスクが最適な実行を達成できるようにすることです。

3つ目は、 「分散サービス層」におけるメディアビジネスフローの配置を最適化し、録画中の文字起こし、放送中の文字起こしなど、プロセスのアクティビティをより広範囲で自由に接続できるようにすることです。これにより、異なる製品やサービスを同じプロセスで直列に接続できるようになり、シナリオ間または製品間のプロセスを高速化できます。

4つ目は「AIの能力」の恩恵で、アルゴリズム層、エンジン層、分散サービス層のいずれにおいても、大規模な映像処理においてAIのメリットが最大限に発揮され、「高い時間効率」がさらに向上します

メディアサービスの「高適時性」を無限に解決することがすべてだとすれば、現時点での「高品質」の完璧な実現はAIの能力をもっと活用できるはずだ。

AI 変わり続ける「加速力」

AI の反復と AIGC の進化にまだ追いつくことができますか?

大規模モデルと AIGC テクノロジーの開発は「日進月歩」とも言え、その反復速度は前例のないものであり、さまざまな垂直アプリケーション モデルが登場し、オーディオおよびビデオ業界のアプリケーション シナリオもより広範囲かつ多様になっています。

さらに重要なのは、大規模モデルと AIGC は、より大量のデータ、より複雑なアルゴリズム、および強力なコンピューティング サポートを使用して、オーディオおよびビデオ処理の精度と効果を大幅に向上させ、無限の想像力をもたらすことができます。

この AIGC の嵐の前に、当社のメディア サービスは事前にレイアウトされており、AI 機能がさまざまなインテリジェント ビデオ シナリオに柔軟に参加できるようになり、AI の反復と AIGC の進化をインテリジェントな「トップレベル デザイン」に組み込むことができました。

AIGC の進化(コンテンツ制作分野を例に挙げます)として、前段階から 5 つの段階を設定しました。

➤ 第 1 段階 (プレリュード): AI が素材の前処理を担当し、事前に設定されたテンプレートに従って素材を配置し、完全なインテリジェントなビデオ制作の第 1 段階を実現します。

➤ 第 2 段階: 素材の前処理に加えて、ビデオクリエイティブリンクに属する編集作業 (スクリプトデザイン/タイムラインデザイン) も完了し、インテリジェントなバッチ混合カットを実現します。

➤ 第 3 段階: 特定のシーンと特定の要件を備えた完成品の場合、AI は既存のフィルムに基づいてサブショットを逆に分解し、素材の検索、スクリーニング (および一部の素材の生成)、処理、配置、および最終的な合成を担当します。

➤ 第 4 段階: 特定のシーンについて、AI はマテリアルの検索、スクリーニング (および部分的なマテリアルの生成)、処理、配置、最終的な制作と合成を含むシーンの要件を理解する責任を負います。

➤ 第5段階:AIは、膨大で豊富なデータをもとに、さまざまなシナリオに対して自らクリエイティブなポイントを発見し、まさに「創造力」を発揮します。

簡単に言うと、AI は機能からシナリオへと徐々にビジネスに浸透し、最初は単一のケース、次に普遍的、状況が最初、全体が、実行が最初、創造性が最初であり、補助的なビジネスからビジネスの完全にインテリジェントな変革への AI の進化が完了します。

かつてのAIは補助的な創造物に過ぎなかったことがわかりますが、今日のAIはすでに創造の主人公になり得るのです。

今後、メタバースや Web3.0 に関係なく、次世代インターネットの繁栄には大量のデジタル コンテンツが必要となり、コンテンツの量、形式、双方向性に対する要求がさらに高まります。

たとえば、大規模なモデルに基づく画像強調やリアルシーンのマットングなどの多くのテクノロジーは、効果の点で従来の AI アルゴリズムを上回っています。別の例として、Text to Video (テキストをビデオに変換) を使用して数秒間の空の映像を生成し、Image to Video (画像をビデオに変換) を使用して連続アクションのビデオを生成することは、高品質の問題を解決できるだけでなく、「何もないところから」のブレークスルーを達成することもできます。

将来的には、AIGCの機能を活用することで、インテリジェントメディアサービスは、制作・制作分野における「ワンクリックフィルム制作」の効果を大幅に向上させることができ、インテリジェントな生成、タイムラインのインテリジェントな配置、インテリジェントな編集・パッケージ化において、制作や制作効率と品質の問題点を一つ一つ解決し、メディア資産の分野では、AIGCを利用してビデオ要約などを生成することも可能となり、メディア資産管理にさらなる新たなエネルギーを提供することができる。もちろん、全方位の探索は進行中です。

大型モデル時代のAIGCに期待。

7月28日午後

LiveVideoStackCon2023 上海駅

Alibaba Cloud ビデオクラウドセッション

Alibaba Cloud Intelligence シニア テクニカル エキスパート

「スケールからフルインテリジェンスへ: メディアサービスの再編成と進化」

メディアサービスの革新的な「トップデザイン」を一緒に探求しましょう!

RustDesk 1.2: Flutterを使用してデスクトップ版を書き換え、 deepinで告発されたWaylandをサポート V23は2023年に最も需要の多いWSL 8プログラミング言語への適応に成功: PHPは好調、C/C++需要は鈍化 ReactはAngular.jsの瞬間を経験している? CentOS プロジェクトは「誰にでもオープン」であると主張 MySQL 8.1 および MySQL 8.0.34 が正式にリリース Rust 1.71.0 安定版 リリース
{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4713941/blog/10089648