データから大規模モデルのアプリケーションまで、開発のヒントを共有する杭州元創会議が 11 月 25 日に開催されました。

ビデオクラウドAIは新時代へ進化。

Gartner は最近、2024 年の戦略的テクノロジートレンドのトップ 10 を発表しましたが、AI がその背後にある共通のテーマとなっているのは明らかです。ユニバーサル生成人工知能、AI 強化開発、インテリジェントアプリケーション...私たちは AI の新時代を迎えています。

ChatGPT の誕生から開発者カンファレンスでの見事な登場まで、OpenAI は単独で生成 AI 業界に革命を起こしてきました。同時に、AI が想像を絶するスピードで進化し、クラウドサービスやオーディオ、ビデオにさらなる機会と課題をもたらしていることも見てきました。

「クラウドとインテリジェンスの緊密な統合」という業界のコンセンサスの下、大規模なモデルをうまく活用して業界のニーズを満たす垂直シナリオモデルを構築する方法、生成 AI と実際のビジネスをより適切に組み合わせて、クラウドの「最大限の活用」を最大化する方法クラウドサービスビデオクラウド分野では「ベストパートナー」のメリットが大きな注目を集めています。

同時に、オーディオやビデオにおけるAI技術のさらなる浸透や、ビデオクラウドの活用シーンの拡大にも好奇心と期待でいっぱいです。

「Alibaba Cloud Video Cloud」のビジュアルアルゴリズム部門責任者のLiu Guodong氏と、メディアサービス責任者のZou Juan氏に、AIを中心としたAlibaba Cloud Video Cloudの新たな進歩と新たな考え方について語ってもらいました。ビデオクラウド大規模モデルの探求とAIGCの実用化。

01 AI熱嵐

熱い OpenAI 開発者カンファレンスにより、大規模モデルと生成 AI のトレンドが再び加熱しました。AIの急速な変化の中で、オーディオとビデオの「危機」と「機会」は、より深刻な変化に直面していることがわかります。同時に、AI の完全なサポートを得て、オーディオとビデオのリンク全体にクラウドインテリジェンスをより深く統合し、それによって全体的なオーディオとビデオのサービスレベルを向上させたいと考えています。

Q1：AI業界の「テクノロジーの春祭り」とも言える、先日のOpenAI Developer Conferenceですが、最も印象に残ったことは何ですか？

OpenAI の最新 GPT-4 Turbo モデルは、コンテキストウィンドウの長さが 128K に拡張され、モデルのナレッジベースの包括的なアップグレードが実現され、DALL.E 3、GPT4-Vision、TTS などをサポートするなど、印象的な内容が数多くあります。マルチモードモデル、動的 API、モデルの微調整とカスタマイズをサポート、開発者エコシステム構築の観点から、OpenAI は GPT アシスタント API と GPT ストアをリリースし、開発者がより便利にモデルを呼び出し、GPT の創造的なゲームプレイを共有できるようにしました。定義された GPT を使用すると、コードを理解していないユーザーでも独自のバージョンの ChatGPT を簡単に作成できます。

OpenAIがもたらした衝撃が大きいことは間違いない。革新的なテクノロジーをもたらすだけでなく、錬金術から商業化へと移行する独自のエコシステムを構築し始めています。同時に、特にマルチモーダルの理解と生成、言語の理解と生成、意思決定としての GPT-4 Turbo の能力の点で、AI テクノロジーがより高いレベルに進化していることもわかります。すべてオーディオとビデオに関連するセンターテクノロジーは直接的または間接的に関連しており、オーディオとビデオ技術の発展のさらなる可能性を見ることができます。

Q2: AI テクノロジーがオーディオとビデオにさらなる可能性をもたらすとおっしゃいましたが、新たな影響ももたらしますか? オーディオおよびビデオ分野における AI の要件はより厳しいのでしょうか?

オーディオ・ビデオの分野では、インタラクティブ・エンターテインメント、ラジオ・テレビメディア、教育、金融など、さまざまな業界でオーディオ・ビデオサービスが広く利用され、シーンへの浸透がますます深まっています。これらの業界やシナリオにおけるエクスペリエンスの追求はますます高度になっており、同時にユーザーはより手頃な価格で包括的なものを求めており、そのためにはオーディオサービスやビデオサービスに高度なインテリジェント性が求められています。オーディオおよびビデオサービスの品質を向上させるために AI に期待を寄せることは、業界のコンセンサスとなりつつあります。

AIGC の急速な発展に伴い、オーディオおよびビデオ分野の AI テクノロジーも新たな傾向を示しており、アルゴリズムの汎用性、理解能力、生成能力に対する要求がさらに高まっています。これまでは、純粋にカスタマイズされた小型モデルの開発、シングルモーダル処理および予測パラダイムはもはや完全に適応できなくなり、非常に強力な一般化機能を備えた事前トレーニング済みの大規模モデル、マルチモーダル情報融合、生成などの技術分野に移行しています。パラダイム。

ビジネスで見つかった問題点を分析することで、ビデオクラウドの AI アルゴリズムに対するいくつかの高度な要件を要約しました。つまり、パフォーマンスとパフォーマンスの面で究極のエクスペリエンスを追求すること、アルゴリズムの汎用性と汎用性を追求すること、そしてAI に依存しない意思決定と計画を改善し、リンクを処理できるため、開発、アクセス、使用のコストが削減されます。

オーディオおよびビデオ分野における AI の要件は、間違いなく自然言語分野よりも厳しいものであり、特に、より一般的な方法で大規模な AI モデルをオーディオおよびビデオと組み合わせることができるかどうかが重要です。He Kaiming 博士が述べたように、自然言語処理分野の事前トレーニングモデルと比較すると、コンピュータービジョンの分野には、ほとんどのタスク処理をカバーする同様の基本的な視覚モデルがありません。Video Cloud は、オーディオとビデオの方向における AGI の進歩にも注視していきます。

Q3: オーディオとビデオの分野で、オーディオとビデオのサービス全体のレベルを向上させるために「AI を活用」するにはどうすればよいですか?

オーディオとビデオのフルリンクの観点から、オーディオとビデオのライフサイクルのあらゆる側面で「AI の強みから学ぶ」ことができます。オーディオおよびビデオコンテンツの収集、前処理とエンコード、ビデオの分析と理解、ファイルまたはリアルタイムストリームの処理と送信、メディア消費側でのインタラクティブなフィードバックなど、AI テクノロジーはさまざまな角度から使用でき、オーディオおよびビデオのライフサイクルにおける複数のモジュールにより、より効率的で高品質な機能が提供されます。

長年の実践を経て、AI による Alibaba Cloud Video Cloud の強化もフルスタックであり、オーディオとビデオの「制作、処理、送信、消費」のリンク全体をカバーしています。現在、AI テクノロジーはビデオクラウドビジネスと密接に結びついており、ビデオクラウドは、ライブビデオブロードキャスト、ビデオオンデマンドに加え、メディア収集、メディア資産管理、コンテンツ制作と配信をカバーするワンストップのメディアサービス機能セットを顧客に提供します。 AI は製品のあらゆるところに組み込まれています。大型モデルと AIGC の爆発的な増加により、AI はビデオクラウドに新しいビジネスモデルと想像力の空間ももたらすでしょう。

02 ビデオクラウド大型モデルによりリンク全体の進化が可能

汎用性の向上、理解力と生成機能の強化、大規模モデルの出現により、ビデオクラウドに新しいアイデアとソリューションが提供されます。ただし、オーディオとビデオのリンク全体で大規模なモデルを強化するには、基礎となるアルゴリズムの細分化機能の進化だけでなく、特定のオーディオとビデオのシナリオに完全に適応して、最終的な目標を真に実現することも必要です。大きなモデルは「私にとっては役に立ちます」。最良の結果が得られます。

(この部分はLiu Guodongとの詳細な会話を編集したものです)

Q4: アルゴリズムレベルから見ると、大規模モデルは以前の技術ソリューションの「古い病気」を解決できると思いますか?

以前は、アルゴリズムを設計するときは、通常、小さなモデル、従来のアルゴリズム、またはその 2 つの組み合わせを使用していました。この種の設計は、占有するトレーニングリソースが少なく、高速で展開が容易で、強力なクライアント側実装を備えていますが、モデルの一般化能力が低い、効果の上限が比較的低い、効果が低いなどの顕著な問題もあります。理解力と生成力。

大規模モデルの出現後、私たちはその多用途性、マルチモーダルなコラボレーション機能、強力な理解と生成機能に驚かされますが、これらはまさに小規模モデルや従来のアルゴリズムに欠けているものです。以前のアルゴリズムをやり直してアルゴリズムの効果の上限を改善するには、大規模モデル手法を使用することがより現実的であると考えられます。さらに、エンドサイドの大型モデル設計など、新しい領域や問題に対処するために大型モデルを使用することも試みています。

Q5: Video Cloud は、大規模モデルのアルゴリズムシステムを設計する際に、いくつかの「インテリジェントな」アイデアを共有してもらえますか?

ビデオクラウドのビジネス特性に基づいて、ビデオクラウドの大規模モデルアルゴリズム開発のためのシステムアーキテクチャを設計および構築しました。システム全体は、分析、計画、推論、評価、トレーニング、微調整のリンク全体をカバーしており、進化可能で意思決定が可能です。

進化可能性は、特定のタスクに対して、システムが分析からトレーニングまでの周期的なプロセスを実行し、プロセス全体の継続的な反復を維持するという事実に反映されています。意思決定とは、システムが最初にビデオクラウドのナレッジベースを使用して検索し、次に大規模な言語モデルを使用して実行パスを指定することを意味します。同時にナレッジベース自体も常に充実しており、今後も評価の高い企画情報やソリューション、ビジネスデータをナレッジベースにインプットし、時代に即した意思決定の基盤を整えていきます。

Q6: 大規模モデルのアルゴリズム探索に関して、Video Cloud には一連の研究パスや要約された方法論がありますか?

大規模モデルアルゴリズムシステムフレームワークに基づいて、ビジネスにおける実践と進化を継続し、ビジネスにおける実践的な問題を高品質で解決できるように、一連の一般的な大規模モデルアルゴリズム「方法論」を洗練させます。

例えば、実際のタスクを実行する際、コアとなる基本機能の一部は大規模モデルのみに依存して実現できますが、それらをうまく解決できるようになるにはまだ長い道のりがあります。小型モデルを使用して、大型モデルと小型モデルを相互に連携させることができ、それぞれの利点を活かして比較的良好な結果を達成しました。

別の例として、大規模モデルの実装中に、大規模モデルは一般的なシナリオをよりターゲットにしており、実際のオーディオおよびビデオサービスでは悪い結果が得られることが多いことがわかりました。もちろん、これはこれらのモデルが完全に使用できないことを意味するわけではありません。独自のビジネスシナリオに基づいて、比較的品質の高い大規模モデルを選別し、蓄積されたデータやナレッジベースと組み合わせて大規模モデルを微調整することで、モデルの精度が大幅に向上しました。

さらに、大規模モデルのトレーニングの最適化、推論パフォーマンス、メモリ使用量などの観点から、Video Cloud は実際の大規模モデルに基づいたアルゴリズム最適化パスをまとめており、それによって強固な基盤を築き、オーディオとビデオのインテリジェンスへの道を切り開いています。サービス。

Q7: 画像やテキストの生成と比較して、大規模モデルのビデオ生成は技術的な敷居が高く、克服する必要のある技術的課題がより多くありますが、ビデオクラウドではこの点についてどのように取り組んでいますか?

クローズドソースの Midjourney であっても、オープンソースの安定した拡散であっても、画像生成において驚くべき成果を上げています。ビデオクラウドビジネスでは、特にクラウド編集やクラウドブロードキャストなどの製品の場合、いくつかの画像生成機能も必要です。非常に直接的な要件の 1 つは、背景画像の生成です。オープンソースの安定した普及やアリババ同義の大規模モデルなどのモデルを開発しました。これに基づいて、ビデオクラウドシーンに基づいていくつかのアルゴリズム革新が実行され、生成された画像がシーンとより一致し、高品質になりました。

より敷居の高い動画生成については、Runway 社などの大きな進歩にも注目しており、生成される動画のシングルフレーム品質は SD などの効果に近く、インター-フレーム一貫性のパフォーマンスも非常に優れていますが、人々の期待とは程遠いものです。ビデオクラウドのビジネスシナリオから出発して、私たちはビデオ編集トラックを選択し、ビデオレンダリング機能の開発、つまりビデオをさまざまなスタイルに変換することに重点を置き、それによって編集製品の競争力を向上させました。さらに、探索するビデオ生成用の細分化されたシーンとして、より適切な Vincent アニメーションも選択しました。

Q8: 大規模モデルアルゴリズムの実践に関して、Alibaba Cloud Video Cloud は完全なオーディオとビデオリンクのどの側面で新たな進歩を遂げましたか?

過去 1 年近くにわたり、Video Cloud は大規模モデルの徹底的な調査を実施し、複数のアルゴリズムアトムを開発してきました。その作業には、オーディオとビデオの制作、処理、管理、送信と配信、再生のリンク全体が含まれます複数のリンク。

たとえば、オーディオとビデオの制作プロセスでは、現実のカットアウト、音声のクローン作成、ヴィンセントの描画、グラフィック描画、AI 合成など、複数の大規模モデルベースのアルゴリズムを開発しました。その中で、人間の声のクローン作成は、アルゴリズムを徹底的に磨き上げた結果、基本的にその人の元の声と区別がつきません。同時に、音声駆動のデジタルヒューマン技術と組み合わせることで、人間の音声クローン作成により、非常にリアルで自然なデジタルヒューマンを作成することもでき、現在、Video Cloud のデジタルヒューマン製品も発売され、広く注目を集めています。

さらに、Video Cloud は、処理、メディア資産管理、消費の側面において大規模なモデルに基づいたアルゴリズムを開発し、アルゴリズムの効果を大幅に改善しました。

Q9: 今後、大規模モデル自体の進化（将来のマルチモダリティ）と合わせて、Alibaba Cloud のビデオクラウドに対する考え方や模索ルートは何ですか？

現在、大型モデル技術は急速に発展しており、「トレンドを活用」してオーディオおよびビデオサービスとより適切に統合する方法については、前述した端末側の処理など、検討する価値のある方向性が数多くあります。

大規模なモデルが、質問と回答、対話、テキストベースの図、画像ベースの図、ビデオ説明など、さまざまな問題解決ツールを提供していることはわかっています。これらのツールは常に改善されており、その機能は強化されています。しかし、基本的には一方的な問題を解決します。私たちは、大きなモデルが認識し、計画し、行動する能力を備えていることを望んでおり、これがエージェントの現在のコンセプトです。ここでの認識はマルチモーダルであり、オーディオ、ビデオ、テキストなどの可能性があります。意思決定脳としての大規模モデルの能力は継続的に向上しており、独立して分析し、行動経路を計画し、ツールの大規模モデルに従ってスケジュールを設定できるようになります。ビジネスニーズに合わせて。実際、アルゴリズムの観点だけでなく、多くの AI 機能がビデオクラウドのエンジン、スケジューリング、ビジネス層にすでに組み込まれています。

03 AIGC、効率と有効性における「インテリジェントな飛躍」

単なる意思決定の支援から、人間のように考えること、さらには人間を超える意思決定効果に至るまで、AIGC の想像力の空間はおそらく私たちの想像力に限定されていますが、ビデオクラウドの完全にインテリジェントなレイアウトはこのようなものではありません。インテリジェントな高速列車の利点を維持するには、効率と効果の両方を考慮した二重の改善が必要であり、ビデオクラウドの長期的なレイアウトとトップレベルの設計も必要です。

(この部分は、Zou Juan との詳細な会話を編集したものです)

Q10: ビジネスの観点から、オーディオやビデオのシナリオで大規模なモデルなどの AI テクノロジを実装する場合、どのような問題を克服する必要がありますか? 「上部設定」は必要ですか？

大規模なモデルがオーディオおよびビデオサービスを実装する場合、次の 2 つの問題を解決する必要があります。

まず第一に、大規模なモデルがオーディオおよびビデオ処理パイプラインと適切に統合されている必要があります。同時に、この融合は粗粒化できませんが、効率と画質の低下を避けるために、できればフレーム粒度化する必要があります。複数のエンコーディングによって。

第 2 に、大規模なモデルの計算は従来の AI 計算よりも複雑であるため、マルチスレッドを使用してリアルタイムのパフォーマンスを確保したり、ソフトウェアとハードウェアを統合してパフォーマンスを向上させたり、アルゴリズムエンジニアリングの最適化レベルでより多くの作業を行う必要があります。これらのタスクはすべて、全体的な設計とさまざまな詳細処理をメディアエンジンレベルで実行する必要があります。

Q11: Alibaba Cloud が AI + ビデオの分野に非常に早くから根付き、AIGC が爆発的に成長しつつあることは知っていますが、オーディオとビデオに「質的飛躍」をもたらしましたか?

Alibaba Cloud Video Cloud は、AI とオーディオおよびビデオ技術を組み合わせた AI 分野の技術レイアウトを長年主張しており、それをビデオクラウド製品で広く使用してきました。

実際、2017 年に、スマートカバー、AI レビュー、スマートサマリー、スマートハイライト、およびさまざまな AI 認識機能をメディア処理、ビデオオンデマンド、ライブビデオ製品に適用し、一部のビジネスリンクに AI 機能を導入しました。補助処理。これにより、顧客は時間のかかるコンテンツ制作プロセスを短縮し、ビデオコンテンツをより迅速に公開できるようになります。

現在、AI技術が爆発的に普及し、音声や映像の活用が高効率から優れた効果へと飛躍を遂げています。以前はAIの出力は手動出力に及ばないと思われていましたが、今ではAI によって復元された画質なのか、AI によって生成された素材の品質なのか、それとも AI が人間と同じようにメディアコンテンツを理解し、人間よりもさらに細心の注意を払ってビデオ構造を分析して洗練させることができるという事実に関係なく、この状況は変わりました。今ではオーディオやビデオのビジネスがすべて再利用されるところまで来ているようですが、そこをAIが超えていくと、ほとんどのシーンはAIで再構築できるようになっています。

Q12: Alibaba Cloud Video Cloud では、AI と大規模モデルを使用してビジネスを再構築するためにどのような技術的実践を行ってきましたか?

メディアコンテンツの制作には、メディアアセット、制作と制作、メディア処理の 3 つの主要な分野があり、現在、Alibaba Cloud Video Cloud はこれら 3 つの分野に AIGC テクノロジーを適用し、多くのシナリオにこのテクノロジーを導入しています。

たとえば、メディア資産の分野では、私たちの方向性は、意味分析と自然言語理解に基づいた新しいメディア資産システムを実装し、ビジュアルコンテンツ、オーディオ、テキストコンテンツを高次元空間に統合し、従来のビデオのような組み合わせを回避することです。スマートタグ。テキストに変換すると、セマンティクスが失われるか、一貫性がなくなります。テキストの検索に複数のキーワードの組み合わせを使用する必要はありません。自然言語を直接入力でき、検索は単語の分割に依存しなくなりました。従来のスマートタグと比較して、一般化が優れています。

メディア処理分野では、当社の技術実践は効果の最適化に重点を置いており、ハイビジョン画質の向上、低解像度画質の修復、サウンドのインテリジェントなパノラマサウンド処理など、AI アルゴリズムとサウンドを使用します。オーディオとビデオのフロントエンド処理アルゴリズム、前処理アルゴリズム、エンコーダーの連携が向上し、リアリズムとディテールの復元を可能な限り維持し、ユーザーは通常の再生機器を使用して高解像度のオーディオとビデオ体験を楽しむこともできます。

制作のバーチャルスタジオシーンでは、リアルタイムシーンのパフォーマンスをサポートするために大規模なモデルに基づいてセグメンテーションアルゴリズムを調整および最適化すると同時に、マルチレイヤーセグメンテーションとマルチエンティティキーイングを実現し、ニーズに応じてリアルシーンのキーイングを動的に調整し、ターゲット範囲を設定します。また、エッジや光と影のキーイング処理が従来よりもリアルになり、複雑な背景のノイズリダクションも強力になり、ニュース現場や展示現場などでも、複雑な撮影背景＋髪がなびくキャラクターなどの表現が可能です。より完璧なアルファチャネルイメージングを RTC テクノロジーと仮想背景統合と組み合わせることで、複数の人々が新しいレベルの仮想スタジオエフェクトをリアルタイムで操作できるようになります。

Q13: AIGC の発展により、LVS 上海ステーションと比較して、現在のビデオクラウドメディアサービスによってどのような新しいシナリオや機能が解放されましたか?

LVS 上海ステーションは 7 月末に開設されました。過去 3 か月で、AIGC ではビデオクラウドメディアサービスの技術的実践と応用が増えました。新しいクラウド編集、メディアアセット、リアルタイムストリーム制作、メディア処理のすべてが実現しました。セマンティック分析に基づく自然言語メディア検索、複雑な背景に基づく実際のシーンのキーイング、デジタルヒューマンのインテリジェントな編集と合成などの AI 機能。これらの機能のほとんどは、大規模モデルに基づく AIGC テクノロジーを使用しています。

Q14: 将来、AIGC の支援により、メディアコンテンツ制作においてどのレベルのインテリジェンスが達成される可能性がありますか? それは「人間らしく」なるでしょうか？

私は、メディアコンテンツ制作の今後のトレンドは完全知能時代、つまりAIが「人から学ぶ」から「人に似る」、そして最終的にはシナリオによっては「人を超える」時代に突入すると考えています。 , AI がストーリー付きのビデオを独自に作成できるようになり、メディアコンテンツを完全に意味論的に理解し、オーディオとビデオのエンコードと前処理を自分たちで最適化し、何らかの意思決定を試みることができるようになります。その日を楽しみにしています。

04 ビデオクラウド、AI は単なるものではありません

トピック 1: 「新しい AI パラダイムの下での Alibaba Cloud Video Cloud 大規模モデルアルゴリズムの実践」

この講演では、Alibaba Cloud Video Cloud の大規模モデルアルゴリズムのシステムアーキテクチャと実際の運用における主要なテクノロジーを共有するとともに、大規模モデルアルゴリズムの典型的な実践例や、大規模モデルの実装に関するより多くの考えについても説明します。未来。

トピック2：「AIGC時代のAlibaba Cloud Video Cloudメディアコンテンツ制作技術の実践」

この講演では、Alibaba Cloud Video Cloud Media Service の全体的な技術アーキテクチャ、AI と従来のメディア処理を統合する統合メディアエンジンの主要テクノロジー、および AIGC テクノロジーを適用してメディアコンテンツ制作の 3 つの主要モジュールであるコンテンツを再構築する方法について共有します。 . AIGC 実装に関連するシナリオの作成、メディア処理、メディア資産管理、および技術的実践。

AI で世界を見る

大規模モデルからコンテンツ生成まで

Alibaba Cloud Video Cloud から AI のトピックや実践を共有できることを楽しみにしています

大規模モデルからコンテンツ生成まで、AI の新次元を初めて垣間見る

01 AI熱嵐

02 ビデオクラウド大型モデルによりリンク全体の進化が可能

03 AIGC、効率と有効性における「インテリジェントな飛躍」

04 ビデオクラウド、AI は単なるものではありません

Supongo que te gusta