Rongming Microelectronics VPU の極端なコスト削減の実践

現在のビデオ業界の環境では、ハードウェア チップの機会と課題が共存していますが、ハードウェア チップ製品とソリューションの設計をよりユーザーに近づけ、ユーザーにサービスを提供し、ユーザーのより深いニーズを満たすにはどうすればよいでしょうか? 今回の LiveVideoStackCon 2022 北京ステーションでは、Rongming Microelectronics ソリューション アーキテクチャ ディレクター - Caiyuan Amy を招待し、Rongming Microelectronics VPU が顧客の究極の効率向上と「コスト」削減の実現にどのように役立つかを紹介し、新世代の Quadra VPU ベースの世界初のハードウェア インテリジェントを紹介しました。超高速高解像度製品、歴史的に高コストの AI 強化ビデオ製品を大規模アプリケーションに導入する方法。

文/蔡源エイミー

編集/ライブビデオスタック

みなさん、こんにちは。栄明マイクロエレクトロニクスのソリューション アーキテクチャ チームのリーダー、彩源エイミーです。この共有のトピックは、栄明マイクロエレクトロニクス VPU の極端なコスト削減と効率向上の実践です。主に、生産実践での栄明 VPU の使用方法を紹介します。これらの製品は、お客様が大規模アプリケーションでの大幅なコスト削減と効率向上を達成するのに役立ち、すべての人に新しいアプリケーション ソリューションとインスピレーションをもたらします。以下の観点からご紹介していきます。

0bb972d8de9bf9ac7e70a19d7768bb7e.png

-01-

栄明マイクロエレクトロニクスの会社と製品の紹介

NETINT は、新しいインテリジェント ストレージとビデオ/画像コーデック ソリューションに注力しているテクノロジー企業で、上海、北京、中国の済南、カナダのバンクーバー、トロントに研究開発センターを置いています。NETINTが独自に設計したVPUは、ASICベースの超大規模・超高密度・超低遅延のビデオソリューションを提供し、当社のビデオトランスコーダ製品は世界中の多くのトップ企業に採用されています。

d0ac937aeec04dc1cbb2b55d0ee12030.png

Rongming Microelectronics の使命は、クラウドおよびデータ センターに強力なコンピューティング パワーを提供することであり、その長期ビジョンは、世界最高のデータ センター チップ企業になることです。当社の製品は主にビデオ処理チップVPUとソフトウェアとハ​​ードウェアを組み合わせたビデオ処理ソリューションで構成されており、前者はビデオコーデック機能、補助ビデオコーデック用AI処理機能、2D画像エンジン処理機能を提供し、後者はVPUの3つの製品形態で構成されています。サーバーボード、2 つ目はチップを搭載したビデオ処理オールインワン マシン、3 つ目はビデオ処理オールインワン マシンに基づくエンドツーエンドのビデオ ソリューションです。

Rongming Microelectronics は、ビデオ処理チップ VPU の定義者であり、ビデオ処理ソリューションの革新的な企業です。Rongming Microelectronics は、クラウド データ センター、エッジ コンピューティング企業、メディア コンテンツ プロバイダーで広く使用されている、さまざまな非常に革新的なチップ製品を設計しています。コストを最小限に抑えるビデオ処理とデータストレージ。VPU製品技術は世界第1位であり、2世代にわたるチップの開発に成功し、第1世代の製品は世界のトップ顧客によって検証され、大規模に導入されており、国内のスタートアップ企業の中で最大の出荷量を誇っている。データセンターチップの分野、ユニコーン企業。

39286d5bc9e51644351b81d220678655.png

図には 2 世代の製品が示されており、第 1 世代は Logan チップで、2019 年に発売および量産される Codedensity T408 シングルチップ製品と T432 4 チップ製品に相当します。同時に、さまざまな種類のサーバーに適応し、互換性を持たせるための U.2/AIC の形式を備えています。U.2コーデックカードは2.5インチNVMe SSDと同形状で、NVMe SSDのカードスロットを直接利用できます。さらに、ほとんどのサーバーには PCIe カード スロットがあり、AIC コーデック カードを使用できます。

第 2 世代は Quadra チップです。Quadra に基づいて、T1A、T1U、および T2A 製品がリリースされています。10,000 を超えるチップが海外の顧客に導入されています。これら 2 世代のチップは、適用性、安定性、実際のビジネスの面でテストに合格しています。 . 顧客規模の導入の検証。

-02-

効率を向上させ、「コスト」を削減するための Rongming Microelectronics VPU の実践

現在の世界的な経済状況が低迷していることを踏まえ、今回は「効率化とコスト削減」の部分に焦点を当てていきたいと思います。

65b8021cdb823696fc7482cb81104b8b.png

NETINT VPU は、データセンターおよびエッジ コンピューティング向けに設計されたビデオ/画像コーデック処理チップです。次に、通常、データセンター指向のチップの場合、大規模なアプリケーションを展開する際には、パフォーマンス、コスト、同型性、安定性など、いくつかの重要な要素を考慮する必要があります。パフォーマンスとは文字通りそれがそのものであり、ピークパフォーマンス、平均パフォーマンスなどに焦点を当てる必要があります。たとえば、人工知能チップの場合、私たちはその計算能力 (スループット) に大きな注意を払います。通常、私たちは 32 ビット浮動小数点の計算能力に注目します。8 ビット整数は推論や予測にも使用でき、INT8 の計算能力に焦点を当てます。メモリ サイズ: モデルが大きいほど、またはトレーニング バッチが大きいほど、より多くの GPU メモリが必要になります。CPU については、チップが提供するコアの数とチップの周波数に注目します。VPU の場合、主にビデオ/画像コーデック処理を提供するため、パフォーマンスは主に、チップが同時に処理できるコーデック チャネルの数、協調的なビデオ処理のための AI 計算能力、エンコード遅延レベル (最大遅延) を指します。 /平均レイテンシー)など。

コストは、今日議論するコスト削減と効率化に直接関係しており、コストには TCO (総所有コスト)、人件費、時間コストが含まれます。

c0c56ddbb2af8b9ba4a78b907a158bf8.png

VPUシリーズ製品の性能は図の通りで、T408は8チャンネル1080P/30fpsのスループットをサポートし、消費電力は全製品の中で最も低くわずか7Wで、国内の人工知能チップの消費電力はおよそ70w~100wです。 CPUはハイエンドCPU 消費電力は約240wですが、T408は消費電力がかなり低く、H.264/H.265トランスコーディングにも対応しています。T432 は 4 チップ製品で、T408 の 4 倍の容量、32 チャネルに相当します。

2022年に発売されるQuadraシリーズは、T408と比較して4倍の性能向上が特徴で、1チップで32チャンネルの1080Pをサポート、T2製品は2チップのQuadraで64チャンネルの1080P30をサポートします。Quadra は 8K/60fps シングル チャネル リアルタイム トランスコーディングもサポートしており、T2 は 2 チャネル 1080P/60fps リアルタイム トランスコーディングをサポートするのと同等です。Quadra の消費電力は 20w. エンコードおよびデコード規格に関しては、Quadra は VP9 デコード規格と AV1 エンコード規格のサポートを追加しました. 海外アプリケーションは META や Google などの国内アプリケーションよりも高速で、特に 70% 以上の前者のトラフィックは AV1 を使用します。現在、国内大手企業は主にH.265規格を採用しています。

d2770c2932ac1fac26124580e2f6c251.png

この図は、エンコード モジュール、デコード モジュール、AI 推論エンジン、2D 画像処理エンジン、オーディオ処理に使用できる DSP モジュールなど、Quadra の主要なビデオ処理ユニットを示しています。チップ上に統合された AI 推論エンジンはビデオ エンコーダ/デコーダと同じチップ上に統合されているため、ユーザーは ROI 支援エンコーディング、狭帯域 HD などの複雑な AI 支援エンコーディングを同じチップ上で実装できます。 AIによる推論、すべてのデータ処理プロセスのエンコードとデコードにより、作業効率が大幅に向上し、遅延が大幅に削減されます。

当社は、ホストからハードウェア アクセラレータへのデバイス インターフェイスとして NVMe プロトコルを使用し、データ センターおよびエッジ コンピューティング向けに特別に設計されたコンピュータブル ストレージ アーキテクチャに基づく世界初の VPU です。NVMe は、SSD (ソリッド ステート ディスク) などの PCIe ベースのストレージ デバイスで使用するために設計された不揮発性メモリ インターフェイス プロトコルであり、計算ストレージをサポートするように拡張することもできます。このような利点には、ドライバーが不要であること、サーバーとの多くの互換性問題が回避されていること、遅延とデータ交換機能が向上していることなどが含まれます。

パフォーマンスに加えて、誰もがエンコードのビット効率にも細心の注意を払っており、Quadra のビット効率は、高速ギアでは Fast と Medium の間のレベルに達し、低速ギアでは H.265 Slow のレベルに達します。 。

業界で優れた H.265 ソフトウェア エンコーダは、超高速ギアでは 4 スレッドまでオープンし、8K 解像度で 17fps に達しますが、それ以降はスレッド数が増えてもそれに応じて fps を向上させることはできません。 CPU 使用率 このレートは全負荷使用率に達できません。したがって、ソフトウェア エンコーダで 8K/60fps を実現するには、トランスコーディング システムに比較的複雑な同時アーキテクチャを実装する必要があります。Quadra ハードウェア エンコーダを使用すると、シングルチップ 8K/60fps リアルタイム トランスコーディングを実現でき、単一スレッドで 92% 以上の負荷を達成できます。これは、高解像度ビデオ処理における VPU の大きな利点です。

画質処理の比較結果では、Nvidia T4 ハードウェア エンコーダと比較して、同様のギア先読み 4 および同じ PSNR の下でビット レートを 23 ~ 25% 節約できます。rdo を 3 に設定した場合、ビット レートは料金の節約は 30 ~ 31% 増加しました。

807b01b2553aad0ff28f017082c12cfb.png

エンコードとデコードのもう 1 つの重要な指標は遅延です。T408 と比較して、Quadra の遅延はより高く改善されました。1080p のエンコード遅延は約 4 ミリ秒です。クラウド ゲーム、RTC などのインタラクティブ アプリケーションの場合は 2 ミリ秒、約 5 ~ 6 ミリ秒です。 .、その QoE および QoS パラメータは遅延の影響を受けやすくなります。図からわかるように、Nvidia T4 の遅延は Quadra の約2 倍、H.264 の遅延は約3 倍で約 15 ミリ秒に達し、X.265 の遅延は Quadra の 20 倍以上であることがわかります。もちろん、これらはすべてオープンソースの H.264 と H.265 ですが、業界で最も最適化されたソフトウェア エンコーダと比較しても、この 2 つの差は 3 ~ 4 倍です。

ソフトウェア エンコーダはハードウェア エンコーダよりもレイテンシの変動がはるかに大きいため、最大レイテンシの違いはより顕著になります。下の図は、Quadra の遅延変動が基本的に安定した状態にあることを示しており、クラウド ゲームなどのシナリオでは遅延の安定性が非常に重要です。変動が大きいと、顧客エクスペリエンスに影響を及ぼします。ビット レートと遅延は増加できません。明らかに、Quadra の方が需要にうまく対応できます。

e8e5004babd14d111599a0b4cd8600b3.png

パフォーマンスとコストは密接に関連していますが、コストを計算する際にはどのような要素を考慮する必要がありますか? ライブ ブロードキャストのシーンを例にとると、ライブ ブロードキャストのビジネス プロセス全体には、コンテンツ制作、コンテンツ処理、コンテンツ配信、コンテンツ再生が含まれます。コーデック カードはコンテンツ処理リンクに配置され、独自のコンピューティング コストに加えて、コーデック カードのコストもかかります。ビット レートは、コンテンツ配信の CDN コストとコンピューティング/ストレージ コストにも影響します。

dc6069037423e5ef423179b0f45957fc.png

コストを計算するときは、密度、減価償却、および電力消費を考慮する必要があります。

① 密度: 32 コア サーバーなど、単一サーバーで実行できる H.265 1080P30FPS トランスコーディングのチャネルは約 6 つだけであり、業界で優れたソフトウェア エンコーダが前提となります。64 スレッドのサーバーは 12 ルートを実行でき、128 スレッドのサーバーは 24 ルートを実行できます。T408 の場合、1 台のマシンに 24 枚の U.2 カードが挿入されている場合、マシン全体で 200 を超えるチャネルを実行でき、密度は元のマシンの 20/30 倍になります。

②減価償却費:例えば、64コア(vCPU)のサーバーにコーデックカードを追加すると、マシン全体のコストはそれほど増加しませんが、密度は約20倍に増加するため、減価償却費が削減されます。単一チャンネルの。

③電力消費コスト: 消費電力はキャビネットのコストに影響します。16A キャビネットには 400 ~ 500w のマシンを 7 台収容できます。カードを挿入した後、1 つのキャビネットに収容できるマシンの数は大きく変わりませんが、マシン全体のコストは変わりません。操作の密度を大幅に向上させることができます。

コンピューティング コストに加えて、配布コストとストレージ コストがあり、両方に影響を与える要因はビット効率です。Quadra H.265 の VITS2021SmallSet データセット ベンチマーク テスト セットでは、最高のギア RDO レベルの構成により、高速ギアと比較して 8.9% ビット レートを節約でき、中速ギアと比較して 4.1% ビット レートを節約できます。ライブ コールド ストリーミングの場合、VPU 製品を使用する主な目的は、トランスコーディングのコンピューティング コストを削減することです。ただし、ホット ストリーミングの場合は、VPU 高品質モードを使用すると、帯域幅とストレージ コストの点で大きなメリットが得られます。

a5a8d77bcb4e1245ae4797f035eb9b50.png

コストには人件費、つまりアクセスするための人件費も含まれます。T408 と Quadra はどちらも FFmpeg アーキテクチャに基づいており、ユーザーに FFmpeg フレームワークの lib を提供します。顧客は libavcodec の API にアクセスするだけで、既存のFFmpeg プロセス: 既存の構造が大幅に変更されました。一部のユーザーは、NETINT によって提供される Libxcoder API に基づいています。アクセスの点では X264/X265 に似ており、非常に柔軟なエンコード制御とシーンのカスタマイズ パラメーターを提供します。さらに、大規模な運用保守時には、ユーザーが問題を迅速に解決できるように、運用保守ツールやオンライン デバッグ ツールが提供されます。

-03-

Rongming Microelectronics VPU の大規模導入実践

当社はデータセンター用大型チップの分野で最大の出荷数を誇るユニコーン企業です 次に、大規模導入の実践事例をご紹介します。

d5903e724eedcbba7d5eb37a4a6d5007.png

大規模な展開では、2 つの点を考慮する必要があります。1 つ目は、既存のインフラストラクチャと互換性のあるコーデック カードを簡単に作成する方法と、既存のサーバーなどの既存のコンピューティング能力に基づいてコンピューティング能力を拡張する方法の同型性です。計算能力を拡張するためにシステムブックに接続されています。2 つ目は安定性です。つまり、大規模に展開する場合のハードウェア、ファームウェア/ソフトウェア層はどの程度安定していますか?

94aaeb06e236301ec6cbee2b3d8286c0.png

互換性の観点から、ドライバー不要の NVMe プロトコルを使用しています。一般的に、Windows、Linux、および Android システムには、安定した効率的な NVMe ドライバーが付属しています。コーデック カードをインストールする際、ユーザーはドライバーをインストールする必要はありません。 1.3 プロトコルには下位互換性があります。システムサポートの面では、Windows、Linux、Android との互換性が向上しており、U.2 製品はホットスワップもサポートしています。大規模な拡張に関しては、既存のストレージ モデルを使用して U.2 Quadra または T408 を直接接続することができ、チャネルが数個しかないサーバーを 200 または 300 のコーデック カードをサポートするサーバーに拡張できます。

ただし、従来のドライバーはドライバーを自動的に定義する必要があり、さまざまなオペレーティング システムとの互換性の問題があり、特に Windows システムの互換性はより困難であり、大規模な展開では、カードのドロップやドロップなどの安定性に関する問題が浮き彫りになります。認識しないカードなど 私たちが使用する NVMe インターフェイスとドライバーは、このような問題を大幅に回避できます。

37f9a6918522bc8eefe5ee1c1aa73579.png

同型性に関しては、アクセサリ変換なしで選択できるU.2形式とAIC形式のカードを提供しており、U.2とNVMe SSDの形式とプロトコルは同じであり、モデルを再利用できます。

さらに、当社の消費電力は非常に低く、シングル カード T408 は 7 W、シングル カード Quadra U.2 は 20 W です。通常、カードを挿入すると、キャビネットには 7 台のサーバーが搭載されていましたが、現在は 7 台のサーバーが搭載されています。ラックにはまだ 7 台のサーバーがあり、変更は必要ありません。これはマシンの運用とメンテナンスに役立ちます。

写真右側はQuadraのAIC形式ですが、サーバーソリューションもトータルで提供しており、ブースにはカードサーバーのサンプルが7台あります。

49c2f5d7d9cc0b7c4f862827639b679e.png

コンピューティング能力の拡張機能では、NVMe over Fabric プロトコルを使用して、高速ネットワーク カードを介してサーバー間の高速データ チャネルを実現します。サーバーとカードが同じマシン上にない場合でも、低遅延と高データ帯域幅での接続とアクセスが実現します。実現できる。

49fb7e395bddc04a6c95cbc9b2b57f74.png

これは大規模な導入例で、左の写真は海外の24*U.2とSuperMICROが提供するT408サーバーです。右の図はサーバーのリサイクルの一例で、T408 は一般的にリサイクルに使用されており、大規模かつ安定した導入が非常に成熟しています。

97a751f51acad89a8c3bee2d1bd93c91.png

大規模な展開のプロセスでは、サービスにアクセスした後にサービスが破損するかどうかなど、ハードウェアまたはファームウェアの安定性を考慮することがあります。

ハードウェアの安定性に関しては、Spike/Lt-loop/DCpower の安定性検証を 10,000 回以上繰り返し、過負荷、過熱保護、その他の安定性検証を行っており、問題の閉ループを確保するための SLA コミットメントと RMA プロセスのコミットメントを行っています。

ファームウェアの安定性に関しては、数万件のオンライン大規模展開検証に合格しており、シナリオのデコードに関して業界最高の互換性サポートを実現しており、ファームウェアのアップグレードをサポートするための 70,000 件を超えるテスト ケースを備えています。

-04-

Quadra ハードウェア インテリジェント超高解像度製品

ffd58ea98197403eb51d7880b7112b55.png

Ali のナローバンド HD、Tencent の超高精細度などの超高精細度製品はよく知られているはずですが、当社の製品も AI 技術と画像処理技術に基づいており、深層学習ネットワークを通じて、ビデオ画像を認識し、主観的なエクスペリエンスを最適化し、人間の目の知覚の向上を追求し、帯域幅を節約します。

他の超高速高解像度製品とは異なり、Quadra は AI 推論エンジンとハードウェア チップに基づくコーディングとシームレスに連携するため、大規模なアプリケーションでより優れた処理効率とコスト上の利点を実現します。

b89df58e3a0510f37b9ac334f4cbcc92.png図はQuadraの処理フローと従来の処理フローを比較したものです

従来の処理フローは、ビデオ入力をデコードし、CPU で処理し、次に CPU/GPU に推論計算などの前処理を実行させ、その後 CPU で後処理を実行し、その後ハードウェアでエンコードを実行するというものです。 /software. 実際にはプロセス全体が非常に複雑で、遅延すると最大限の効果が得られず、コストが高くなります。

Quadra AI Enhance プロセスはカード内で完了し、カード内でデコードされ、データを AI 推論エンジン、エンコーダーにプッシュしてからビデオを出力するという従来のプロセスと比較して、はるかにシンプルです。ホスト側では、Quadra 自体の AI を利用したコンピューティング ユニットがエンドツーエンドのビデオ品質の最適化を実現します。

519a32566818a9aa66ac0894c9a5b9c2.png

e6ddee76f722201b0623e330a1e459c6.png

私たちは人間の目の主観的効果を改善するためにVMAFに焦点を当てています。図は処理前と処理後の効果を比較したもので、超高速HD使用後のVMAFが約14%向上していることが分かりますQuadraはシーン汎化能力も高いです。

c1e6217d2ac78c499aaa4e57d431f91d.png

コスト面で言えば、まず、エクストリームハイビジョンのクラウドサービスは通常のメディア処理の4倍の価格があり、高価です。Quadra と提供される超高速 HD スイッチにより、25% のトランスコーディング率を達成でき、追加コストなしで超高速 HD がサポートされ、主観的効果が大幅に向上し、超高速 HD に達します。 4K@60FPS、1080P@240FPS、720P@480FPSのパフォーマンス。私たちは、顧客が歴史的に高価な AI 強化ビデオ製品をスケールできるよう支援したいと考えています。

以上が今回のシェアとなります、よろしくお願いします!


e2899b42ebcc44b83708fa087504b5a7.png

画像内のQRコードをスキャンするか、「元のテキストを読む」をクリックしてください 

LiveVideoStackCon 2023 Shanghai Station のさらにエキサイティングなトピックをチェックしてください

おすすめ

転載: blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131179299
おすすめ