インテリジェントな知覚コーディングの最適化と実装の実践

写真

著者 | XHF

ガイド 

人間の目の視覚特性に基づいた知覚コーディング最適化技術は、インターネットのショートビデオや OTT などの UGC シナリオにとって重要な最適化手法となっており、ビデオの視聴体験を向上させながらビデオのビット レートを削減できます。

今日のコンテンツには主に 4 つの側面があります。最初に知覚コーディングの技術的背景を紹介し、二番目にコア技術、三番目に実際の応用例を紹介し、最後にコーディング全体の傾向を簡単に紹介します。

全文は8207ワード、想定読了時間は20分です。

01 インテリセンスコーディング技術の背景

現在はビッグビデオの時代であり、ビデオのトラフィックも増加し続けており、4G 通信によりショートビデオ業界が爆発的に成長しました。今日に至るまで、それは止まらない。5G 通信技術は広く使用されており、その高帯域幅と低遅延により、より高精細なビデオ体験がもたらされます。

最初から最後まで、ユーザーのビデオ体験とコスト削減の間には矛盾があります。ビデオ トラフィックの継続的な増加により、帯域幅コストの増加が見込まれます。エクスペリエンスを低下させることなく帯域幅コストを節約し、Win-Win の状況を実現する方法が、技術者としての私たちの継続的な努力の目標です。

写真

帯域幅を圧縮するにはどうすればよいでしょうか?

まず第一に、優れたエンコーダが必要です。エンコード標準も数十年にわたって進化してきました。コーデックには多くの世代がありました。コーデックの新しい世代ごとに、前世代に基づいて多くのエンコード最適化が行われてきました。自社開発のエンコーダー。

コーディング標準はビデオのコード ストリーム情報のみを規定しているため、より多くの新しいツールや新しいアルゴリズムを追加して、同じ品質でより高い圧縮効率を実現することが、アルゴリズム学生の継続的な作業の目標でもあります。

インターネットUGCシーンではすでにHEVCやH.265が流通の9割以上を占めているのが現状です。多くのメーカーも次世代が AV1 か H.266 かを検討しており、業界では多くの議論が行われています。では、コーデック規格に基づく最適化以外に、さらに最適化方法があるのでしょうか? 答えは「はい」です。

AI を利用した人間の知覚コーディングは、最適化の重要な方向性です。これにより帯域幅のさらなる節約が可能となり、業界では狭帯域の高解像度、高解像度のローコードなども提案されています。**Baidu Smart Cloud の「Intelligent Sensing Super Clear」テクノロジーの「知覚エンコーダー」は、基本的に知覚エンコーディングの最適化技術を使用しています。**今日は、このテクノロジーを実践と組み合わせていくつかの新しい解釈を行います。

写真

まず、知覚最適化全体の基本原則を見てみましょう。

ビデオ圧縮アルゴリズムの最も基本的な目標は、人間の目により良い知覚品質を達成することです。人間の視覚システムの観点から見ると、PGC シーンで使用される圧縮アルゴリズムなどの一部の従来の圧縮アルゴリズムは、主に圧縮ビデオがピクセル レベルで元のビデオと比較されているかどうかを調べるために、品質評価指標として PSNR を使用します。 . 十分に似ており、十分に近い。SSIM や最新の VMAF など、人間の目に近い新しいビデオ品質評価指標、またはさらに優れた人工知能ベースの非参照ビデオ品質評価方法を使用できます。

より優れたビデオ品質評価アルゴリズムも、私たちの継続的な目標です。人間の目の特性から始めて、視覚感度、人間の目がテクスチャや平らな領域の品質に対してより敏感であるかどうかなど、いくつかの視覚モデルを帰属させることができます。また、人間の目はJNDの特性、すなわちフレームロスだけを検出できるという特性を持っており、人間の目はフレームロスに対してある程度敏感である可能性があります。同時に、視覚的注意メカニズムも備えています。つまり、人間の目はパーツにより強い関心を持っているため、人間の目の特性を利用してさらなる最適化を行うことができます。

要約すると、知覚コーディングの最適化には次のものが含まれます。

  1. まず、コンテンツを認識して画質を向上させます。

  2. 次に、画質向上に基づいて、ROI 領域の識別などに基づいてビット レート割り当てを最適化し、より良いビット レート割り当てを実行します。

  3. 最後に、コア エンコーダーの最適化と組み合わせて、これらのテクノロジーを包括的に適用することで、ビット レートをさらに節約するという目標が最終的に達成されました。

目標に関しては、帯域幅を圧縮するだけでなく、ユーザー エクスペリエンスも向上させたいと考えています。ユーザーエクスペリエンスの向上は、ひいてはビットレートの節約にもつながります。

知覚最適化は諸刃の鍵で、具体的には前処理によるビットレート節約に換算すると、うまく使えばビットレート節約になりますが、うまく使わないとマイナスの問題が生じる可能性があるため、これは総合的な技術力の向上であることが強調されています。

写真

次に、その方法を見てみましょう。近年、百度スマートクラウドのインテリジェントビデオクラウドチームは「インテリジェントスーパークリア」技術ブランドを継続的に構築しており、知覚エンコーダまたは知覚最適化技術は「インテリジェントスーパークリア」技術ブランド全体の非常に重要な部分を占めています。

コンテンツアウェア コーディング、知覚処理、コア エンコーダーの最適化などの部分については先ほど触れました。今日の内容は主に次のコア技術を中心に展開します。

写真

「Intelligent Sensing Super Clear」テクノロジーに基づいて、Baidu Smart Cloud のビデオ クラウド チームは ToB 顧客向けの一連のソリューションを作成しました。

私たちはアルゴリズムをパブリック クラウド、民営化、オールインワン マシンなどの実際の製品に変換し、一部のハードウェア プラットフォームの高速化を通じて、ビデオ制作から再生までエンドツーエンドで顧客のビジネスを強化するアルゴリズムを実現します。

以下の図は、当社の製品ソリューション全体の基本アーキテクチャです。

写真

下の写真は製品全体の形状です。

クラウド製品の成果物として、テクノロジーを使用して C サイド ビジネスのようなビジネスを深く結合し、強化することはできません。私たちはテクノロジーの製品抽象化レベルをさらに高め、テクノロジーを標準化された製品に変換し、より多くの B エンド ユーザーが製品の形で利用できるようにする必要があります。

先ほど述べたパブリック クラウド、民営化、オールインワン マシンに加えて、知覚コーディングの SDK 出力もサポートしています。

写真

オタクトーク

02 IntelliSenseコーディングコアテクノロジー

いくつかの基本的な製品機能を紹介した後、インテリジェントな知覚コーディング全体の中核となるテクノロジーを見てみましょう。

冒頭でエンコーダーについて触れましたが、優れたエンコーダーは仕事の基礎です。

過去 2 ~ 3 年間、当社は BD265 のコア エンコーダの研究開発に投資を続けてきました。では、コーディング標準の観点から競争力のあるエンコーダーを構築するにはどうすればよいでしょうか?

次の 2 つの方法でそれを行うことができます。

  • 一方で、それは積極的な技術によって推進されています。たとえば、コーディング標準に基づいて、いくつかの積極的なコーディング ツールやアルゴリズムを使用して、エンコーダの圧縮能力を向上させることができます。たとえば、より優れたコード レート制御方法やコードレートの割り当ては非常に重要な最適化ポイントであり、より適切な場所にビット レートを割り当てる方法については後で説明します。また、ピラミッド B フレーム、GPB、前処理に関連するいくつかのアルゴリズムなど、コード標準ではカバーされていない多くのアルゴリズムも追加されており、これらは積極的な品質の最適化を目指しています。

    同時に、エンジニアリングの最適化の観点からは、主にエンコード効率の最適化を指します。つまり、エンコード品質を損なうことなく、エンコード速度を可能な限り向上させることです。特に現在、エンコーダは、モバイル端末やサーバー端末を含む ARM プラットフォームの特別な最適化だけでなく、さまざまな高速アルゴリズムもサポートします。これらはポジティブな運転技術ですが、同時にシーンフィードバックもある程度活用して運転しています。たとえば、当社のアプリケーション ドライバーは、ライブ通信シナリオで多くの特別な最適化を実行しました。

  • もう 1 つの側面は、シーンのフィードバック主導型の最適化です。たとえば、オンデマンドのシーンでは、コスト削減と効率の向上という継続的なプレッシャーに直面して、極度の圧縮のシーンでも多くの最適化を行ってきました。たとえば、圧縮アルゴリズム全体に対して多くの主観的な最適化が行われています。右上隅の図からわかるように、バージョン 1.0 から始まりバージョン 5.0 まで継続的に反復が行われています。オープンソースの X265 と比較して、当社の圧縮率は、PSNR/SSIM または VMAF を含む客観的な指標の観点から 40% 以上のビット レートの節約を達成できます。そこで、より知覚的な最適化作業の基礎としてエンコーダーを使用します。

写真

私たちは知覚について話してきましたが、では私たちは何を知覚できるのでしょうか? 内容の特徴です。

ビデオの品質に関連する機能はどれですか。いわゆる「人間」の感覚における主観的な品質は、ビットレートが高いほど品質が良く、解像度が高いほど品質が良く、フレームレートが高いほど滑らかでスムーズであると誰もが考えています。再生される場合があります。次に、コーデック、異なるコーデック、異なる圧縮率に関連します。しかし、もう一つ非常に重要なこと、それはコンテンツの特性です。それぞれの異なるコンテンツには独自の RD (レート-ディストーション) カーブがあり、それぞれのカーブはコンテンツの特性と密接に関係しているためです。

では、各ビデオ コンテンツ、さらにはビデオの各フレームに対して、より適切なビット レート割り当てを行うにはどうすればよいでしょうか? それとも最適なビットレート構成を提供しますか?

より具体的には、ビジネスにおいてビデオの最適なビット レートと解像度の組み合わせをどのように提供するかです。現在、ABR (アダプティブ ビット レート) ソリューションが実用化されているため、最適な組み合わせを提供するには、コンテンツの特性を詳細に分析する必要があります。

コンテンツ適応型コーディングは本質的にレート制御の問題であるため、コンテンツの特性に基づいてビデオ品質、ビデオ コンテンツ、ビデオ ビット レート、および解像度の関係を見つける必要があります。最も愚かな方法は、それをもう一度たどることですが、これでは明らかにビジネスの適時性の要件を満たしていません。

人工知能は、コンテンツを分析して理解する手段を提供し、これに基づいて、高速で最適なパラメーター コーディング予測を完了します。

写真

これは私たちが 2019 年に行った研究であり、関連する論文が PCS2019 カンファレンスで発表されました。

AIベースのモデルを構築しました。まず、ビデオシーン側にビデオを入力し、ビデオをセグメント化し、ビデオパラメータ予測モデルによってシーンの各セグメントを予測します。

それをどう評価するか?1 つ目は、これまで話してきたビデオの複雑さです。ビデオの複雑さには、時間の複雑さと空間の複雑さが含まれます。次に、時間と空間のいくつかの特徴を抽出することができ、また、いくつかの特徴は、事前に訓練された大規模な CNN ネットワークに基づいて抽出することができます。次に、TSN ネットワークを使用してこれらの機能の融合を行い、融合後に予測モデルを渡して、より適切なコーディング パラメーターを取得します。

私たちの利点は、オンライン ビデオに基づいて何百万ものビデオ シーンのトレーニング セットを構築し、さまざまな解像度に応じてさらにトレーニングを実行できることです。このモデルはオンラインで 3 年以上稼働しており、効果は非常に安定しています。

これに基づいて、さまざまな解像度に応じてより洗練されたデータのラベル付けなど、さらに反復を行いました。同時に、現在のアルゴリズムもエンジニアリング全体をサポートします。ToB 出力も、FFmpeg フィルター予測の形式を通じて、このモデルによってサポートできます。コーディングパラメータの調整が実行されます。

ただし、これには欠点があります。つまり、最初に設計したときにトランスコーディング プロジェクトで設計し、後でいくつかの改善を行うため、オンデマンド シナリオ用のアプリケーションになっています。

写真

この要件に基づいて、その後、レート制御のための一定品質の符号化およびより軽量な方法である CQE 技術も開発しました。

原理的には、エンコーダで事前に分析されたいくつかの機能を使用して、モデルを設計し、最後にエンコードのパラメータ決定を行うことができます。オンデマンドシーンで品質に問題がある場合は、再プログラミングで解決できます。もちろん、現在は、ほぼゼロの遅延を実現するライブ ブロードキャスト シナリオでの CQE テクノロジーのサポートに重点を置いています。

写真

コンテンツの特性の認識について話し、最適なエンコード パラメーターを指定した後は、ビット レートの制御でさらに多くのことができるようになります。

まず第一に、人々が行ってきたのは ROI ベースのコーディングです。いわゆる ROI は、人間の目に関心のある領域です。先ほど述べたように、人間の目には注意メカニズムがあり、画像やビデオを見るときに人間の目はより敏感な領域を持っています。アテンション機構は最近非常に人気があり、これは大型モデルの基本原理であり、トランスフォーマーはアテンション・イズ・オール・ユー・ニードです。

ビデオ全体が入力された後、人間の目が最も関心のある領域は、まず人体、次に顔であり、字幕も非常に敏感です。関心領域を検出した後、これらの ROI の領域を前処理できます。処理のために一部のエッジ強調シャープネスを実行でき、平坦な領域に対してさらに多くの処理を実行できます。

入力ビデオの品質が一定ではなく、良い品質もあれば悪い品質もある可能性があるため、アルゴリズムでよりターゲットを絞った処理が必要になるため、UGC シーン用のスペースを提供します。使用済みの場合はさらに加工をさせていただきます。

先ほど前処理について説明しましたが、ビット レートの割り当てがもう 1 つあります。前処理だけを行うだけでは十分ではなく、ビットレートの割り当てとの関連でさらに考慮する必要があります。前処理後、ビデオのコンテンツ特性が変化するため、この場所でのビット レート割り当て戦略をより適切に調整するには、特定のアルゴリズムが必要です。

もちろん、1 ミリ秒の検出速度に達する、より高速な検出方法も用意されており、これも非常に重要です。

写真

次に、その効果を見てみましょう。左側のビデオは、ビット レート 8.9 Mbps のオリジナルの 1080P ビデオであることがわかります。右側は 720P、ROI 処理とエンコード後のビット レートは 514 Kbps です。

これら 2 つのビデオを比較すると、Baidu Smart Cloud の ROI 知覚最適化テクノロジーにより、ビデオ品質が確実に向上し、ビット レートが 18 倍も圧縮されていることがわかります。これは、ROI を意識したコーディング全体の利点を反映しています。

写真

ROI と領域ビデオのエンコードをもう一度見てみましょう。

人間は毎日人間の顔を見ていて、道路上ではあらゆる種類の人々に出会うため、人間の顔はショートビデオ製品全体において非常に重要かつ共通の関心領域です。人間の顔に。人間の目は長い間訓練されてきたため、顔の質に非常に敏感です。顔部分に多少のノイズやモザイクが入っている場合がございます。

したがって、前処理を行う際には、より一般的な方法で行うことはできず、それでも顔の地域特性に応じて異なる処理を行う必要があります。同時に、人間の目は、赤みがかったもの、緑がかったもの、黄色がかったものなど、肌の色に特に敏感です。そして人間の目は、さまざまな人種に対しても非常に敏感です。

したがって、戦略の観点からより詳細な情報を提示する必要があります。極端に圧縮されたシーンではアーティファクトやブロック効果を可能な限り制御する必要があり、主観的な最適化で解決し続けなければならない問題です。したがって、ここでも特別な処理を行うために多くのアルゴリズムを使用します。競合製品との比較から、ぼやけた感じのある競合製品とは異なり、当社の BD 対応エンコーダーは顔の領域でより詳細な情報を持っていることがわかります。

写真

これは競合製品と比較した効果であり、詳細は右側に表示されます。

写真

人間の目の経験について話した後、もう一度色を見てみましょう。

色の強調も主観的な最適化の重要な側面です。より重い場合は AI を使用でき、より軽い場合は従来の方法を使用できます。

色に関しては、左側が色強調なしのビット レート 606Kbps の圧縮ビデオ、右側が色強調ありのビット レート 485Kbps の圧縮ビデオであることがわかります。いくつかの色処理アルゴリズムを通過すると、ビット レートが 20% 削減される可能性がありますが、主観的な効果は大幅に改善されていることがわかります。

しかし、これにも問題があり、色補正は諸刃の剣でもあり、適切に使用しないと間違いを犯しやすくなります。これは、顔固有の最適化における私たちの経験の一部でもあります。

写真

ショート ビデオ シーンでの顔の処理についてお話しましたが、実際には、放送 TV シーン全体やその他の OTT シーンでも非常に一般的な、より困難なケースがたくさんあります。では、これらのより困難なケースにどのように対処すればよいのでしょうか?

人物の顔を特別に切り出し、人物の顔を専用の人顔超解像モデルにし、異なる領域で処理することができます。

生成対立ニューラルネットワーク(GAN)に基づくモデルを採用し、主に着地エンジニアリングとデータ処理の最適化を行い、損失関数の設計では顔の超解像の特殊エンジニアリングを行っています。損失関数には、対立の損失、ROI の損失、アイデンティティの損失が含まれます。超解像度の顔を元の顔と同じ人物のように見せます。

同時に、データに対して多くの最適化作業を行いました。完成後、顔パーティションフュージョンのアルゴリズムを使用して、顔の超解像効果とビデオの超解像効果をうまく統合できます。

写真

効果がわかります。

これらはオンラインでの実際の顧客事例の一部です。顔固有の最適化モデルを通過した後、画像の明瞭さが大幅に回復していることがわかりますが、これも、さらなる復元を行うためにモデルを生成するという考えに基づいています。人間の目の視覚品質に忠実であると同時に、より鮮明です。これは、特殊な面の最適化を行うことで達成される目標です。

写真

これは教育現場の事例ですが、処理後は教師と背後の字幕の明瞭さが大幅に改善されていることがわかります。

写真

実際、多くのシーンでは、人間の顔以外にも注目すべき領域があります。たとえば、画像に人間の顔はなく、左側に犬がいる可能性があります。犬もまた、画像の非常に重要な領域です。興味。したがって、顕著性は関心領域の拡大として理解できます。

実際、ここでの基本的な考え方は似ており、いくつかの独自の最適化も行われています。同時に、顕著性の検出を行う際には、その領域を人体以外の物体に拡張するだけでなく、いくつかの前景の物体も含めます。焦点は顔領域の保護にあります。つまり、人間の顔、人間以外の顔、および人間以外の体の両方があります。最終的な目標を達成するために、顕著性の優先順位に従って処理とビット レートの割り当てを最適化しました。

写真

顕著性検出テクノロジも、より古典的な U 字型ネットワーク、つまり U2-NET に基づいており、これに基づいて、モデルのトリミング、新しいフェイス ブランチ、その他の効率の最適化など、多くのエンジニアリング最適化作業が行われています。

現時点では、CPU 上で非常に高速な検出速度を達成できており、これは単一の顔検出モデルをほぼ置き換えることができ、これが最適化の目標でもあります。

写真

このビデオには山と川が背景にあります。山には木が多く、コードを多く消費する場所ですが、人間の目はあまり敏感ではないのかもしれません。同時に、人間の目は、少女の服と少女の顔が十分に鮮明であるかどうかに焦点を当てます。

左上隅は非顕著な圧縮ビデオ、右上隅は大幅な圧縮ビデオ、左下隅は 20M のオリジナルビデオ、右下隅は顕著領域の表示です。したがって、大幅な最適化により、知覚品質においてより良い結果を達成できます。

写真

知覚の最適化の中核となる技術的なポイントを説明しました。

冒頭で述べたように、実際には、知覚最適化テクノロジー全体がエンコーダーに組み込まれるわけではなく、うまく機能する可能性がありますが、これは非現実的です。私たちが行う必要があるのは、事前分析と検出を含め、すべてのツールと手法を最も基本的な BD265 エンコーダーと深く統合することです。

次に、コード レート分散の CAE テクノロジと組み合わせます。後続の割り当てに影響を与える制御を強化することで、前処理後のビット レートを範囲内に確実に制御できるようにするビット レート バランシング戦略も実装し、ROI を含むビット レート割り当て全体の最適化も実現しました。同時に、顔超解像技術を含む人工知能のAI重度最適化技術もオプションで利用できる。

RAW ビデオ品質の評価に応じて、強化された HDR などを含む AI ベースの処理を選択的に利用できます。この場合、要約すると、知覚コーディング技術の包括的な応用と呼ばれます。この方法でのみ、知覚コーディング技術をオンラインで利用できるという目標を達成することができます。

写真

オタクトーク

03 テクノロジーランディング演習

百度内では、百度FEEDのストリーミング動画も大容量なので、画質や評価、オンライン化の基本的な流れまで、まずは全体を共有できます。

1つ目は、客観的圧縮アルゴリズム、知覚的最適化アルゴリズム、主観的最適化アルゴリズムの評価指標の開発など、コアアルゴリズムの研究開発です。主観評価と自己テストに合格した後、エンコーダの効率テストと安定性テストが実施されます。

エンジニアリングの観点からは、まずビデオのバッチを実行し、PM の学生またはオペレーションの学生に主観的な GSB データ評価を依頼します。GSB (Good、Same、Bad) は主観的な評価が含まれるプラットフォームで、たとえば、G は A が B より優れていることを意味し、S は B が A と同じくらい優れていることを意味し、B は悪い、つまり A が B よりも劣っていることを意味します。 。このようにしていくつかのスコアが形成され、これらのスコアの後、GSB がテストに合格したかどうか、およびオンライン化の基準と要件を満たせるかどうかが決定されます。

オンラインでの実験も必要です。Baidu の AB 実験プラットフォームを通じて多くの実験を行ってください。先ほどの主観評価ですが、百度には「Spiritual Mirror」という複数の端末に対応した主観評価プラットフォームがあり、人間の目での評価をもとにスコア化することができます。次に、AB 実験に関しては、実際の帯域幅の節約がもたらされるかどうかを含め、より多くのデータ主導型のデータが存在することになります。次に、配信、再生時間、ユーザーの再生エクスペリエンスと起動、フリーズ、読み込み率などを含むユーザー指標 (UBS) に関しては、上限を達成できるかどうかという目標を達成するために非常に厳密な指標評価を通過する必要があります。最終的には上記のいくつかのハードルを越えなければならないと言われています。

最後に本格的なプロセスですが、開発実験を行った後は、その結果が期待どおりか、つまり帯域全体が期待通りかどうか、その他の指標が悪化していないかなどを検証する必要があります。これがオンラインプロセス全体です。

写真

このプロセスを導入したことで、昨年から今年にかけてオンラインである程度の収益を上げ続けてきました。

まず、コア エンコーダーのアルゴリズムの最適化により、客観的な指標で 35% ~ 40% のビット レートの節約を達成できます。

さらに、コンテンツ アダプティブ エンコーディングによってさらに 40% ~ 50% の節約を達成できます。知覚コーディング技術との緊密な統合により、最終的な知覚エンコーダは 50% ~ 60% のビット レートの節約を実現します。知覚コーディング最適化テクノロジーにより、ユーザー指標データ (UBS) が大幅に改善され、総分布、総期間、最終的なビジネス指標が大幅に改善されました。

これは、ユーザー エクスペリエンスを低下させず、さらにはユーザー エクスペリエンスを向上させながら、帯域幅をさらに節約する方法について冒頭で説明した内容に戻るためです。言い換えれば、私たちは知覚コーディング技術の最適化を通じて、最終的に望ましい目標を達成しました。

写真

オタクトーク

04 インテリジェントコーデック技術トレンド

最後に、まだ少し時間がありますので、インテリジェント コーデックの技術動向について簡単に紹介します。

以下の資料は主にいくつかの紙の傾向について言及しています。1つ目はディープラーニングのコーディング方向性を踏まえたレビュー記事です

なぜこれを参照する必要があるのでしょうか? なぜなら、古典的なコーデック フレームワークに基づいた各モジュールの AI ツールの議論が導入されているからです。これらのモジュールはコーディング支援に AI を使用できますか? 実際、AV1 や H.266 などの次世代コーディング プロセスでは、高速化やより適切な意思決定を行うために、AI 支援のモジュール式補助コーディング ツールがますます使用されるようになります。もちろん、初期の CAE テクノロジーでも AI 支援レート制御が使用されており、エンドツーエンドの AI 前処理などの他の側面は、オープン ループからクローズド ループに移行しており、これが次の作業になります。

写真

次の共有はビデオ品質の評価ですが、これも非常に重要なトピックです。

なぜそれが主題と呼ばれるのでしょうか?なぜなら、このトピックは誰もがやり続けていることだからですが、最善というものはなく、より良いものがあるだけです。最近、誰もが YouTube 共有作業を行っています。これは、コンテンツ、歪み (圧縮損失)、圧縮自体を含む、AI に基づく複数の機能の使用に基づいており、複数のネットワークを使用して機能を融合して戻すことで、より良い結果を達成できます。人間の目のユーザーエクスペリエンスもSOTAの結果であると言われています。

なんでそんなこというの?なぜなら、私たちの知覚コーディング全体が品質を重視しているからです。では、知覚品質とは何でしょうか? より良い評価をするにはどうすればよいでしょうか? これも客観的な指標であり、問​​題を解決できるものではありません。したがって、ビジネスと組み合わせた品質評価モデルを確立することで技術のさらなる開発を促進する必要があり、CAE 技術や主観的な処理戦略も、このより優れた主観的品質モデルによって支援され、より良い品質を達成することができます。

写真

最後に、非常に浅い考えをいくつか共有したいと思います。これはまだ知覚コーディングに関連していますが、知覚コーディングでは AI 手法がますます使用されるでしょう。

以下にいくつかの要点をまとめます。

  1. AI は基盤であり、包括的な研究開発機能を構築するには、アプリケーションのニーズと密接に組み合わせる必要があります。それは、一点の能力だけでは不十分で、あらゆる総合的な能力をつなぎ合わせ、総合的に活用する必要があるということです。

  2. AI はツールであり、顧客のニーズと密接に一致する必要があります。業界のペインポイントを解決するということはツールであり、どのような問題を解決する必要があるのか​​、どのようなツールが必要なのか。

  3. 次世代コーディングのツールはますます複雑になり、AI によってさらに高速化できるため、AI 支援コーディングは次世代コーディングでより多くのメリットを生み出すでしょう。

  4. AI ビデオ処理の方向性は継続的に磨き上げられ、シーンごと、段階的に問題を解決し、効果と効率の問題を解決する必要があります。これは、私たちが長年にわたって ToB シナリオ、特に AI 処理シナリオの実装プロセスで行ってきた要約の一部でもあります。AIはまだ完璧ではありませんが、お客様の実際の課題を解決し、生産効果や効率性の要求を満たすために、シナリオを細分化して個々のシナリオを磨き続けています。

  5. ビデオ制作の処理およびエンコードのプロセスにおける AI の適用には、まだ多くの開発の余地があります。この文は少し一般的ですが、現在、特に ChatGPT や Wenxinyiyan などの大きなモデルがビデオの制作と処理の過程で何らかの宣伝効果があることは誰もが知っています。

写真

以上が私のシェアです。

- 終わり -

推奨読書:

拡張言語モデル - 一般知性への道?

パブリックメールボックスに基づくフルメッセージの実現

Baidu APP iOS端末パッケージサイズ50Mの最適化実践(2) 画像の最適化

分散トレーニングにおける再計算メカニズムについて

Dolly Bear ビジネスが分散アーキテクチャに基づいて安定性構築をどのように実践しているかを分析する

Baidu エンジニアによるソフトウェア品質とテストのエッセイ

{{名前}}
{{名前}}

おすすめ

転載: my.oschina.net/u/4939618/blog/8797447