VR/ARなどの複雑な映像シーンの高精細化を実現したVolcano Engineは、NTIREコンペティションでダブルチャンピオンを獲得しました。

実践的な注意

47444f5387055eae1270db7c8be94fd0.gif

乾物が無くならない

このほど、CVPRワークショップ主催のNTIRE2023コンペティションの結果が発表され、両眼超解像バイキュービック補間忠実トラックと 360° パノラマ画像超解像トラックにおいて、Volcanic Engine Multimedia Labが自社開発のトラックでダブル優勝を果たしました。アルゴリズムの技術力は業界トップレベルに達しています。

NTIRE (New Trends in Image Restoration and Enhancement) は、コンピューター ビジョンに関する新たな国際コンテストであり、パターン認識とマシン ビジョンに関するトップの国際会議である CVPR (CCF-A) で毎年開催されます。このコンペティションは、学者や研究者が画像の復元とコンピュータ ビジョンの改善のための新しい技術と方法を探索することを奨励し、学術交流を促進することを目的としており、コンピュータ ビジョンの分野で幅広い注目と参加を集めており、多くの大学や著名な大学が参加しています。業界の企業が参加します。

ca8db2eac76231fb4b37841948884678.png

4d91d2ac351b877fd89ca5764955ce55.png

両眼オーバースコア競争の結果

338a5613176b3fdceee1e160d69e4931.png

c61a70c9f665a5972a9c01688426a859.png

360°パノラマ画像 スーパースコアコンテスト 結果発表

両眼超解像度 (バイキュービック補間忠実度) トラック: 自社開発の HTCN ネットワークにより、ステレオ ビジョン画像の解像度効果が大幅に向上します。

両眼画像技術の発展に伴い、携帯電話、仮想現実、自動運転、ロボットなどの両眼カメラアプリケーションの人気が高まっており、高解像度の両眼画像にはテクスチャの詳細がより多く含まれ、主観的な視覚効果が向上し、視覚効果を向上させることができます。下流のタスクのパフォーマンスを向上させるため、ステレオビジョンは学界や産業界からますます注目を集めています。両眼画像の超解像を実現する簡単かつ直接的な方法は、単一画像の超解像アルゴリズムを左視点画像と右視点画像にそれぞれ適用することですが、これでは両眼画像の左視点と右視点の間の情報の関連性が無視されます。左右の視点画像は超解像度プロセスで使用できます。 左右の視点間の補完情報は相互参照であり、両眼画像の超解像度に追加の事前制約も提供します。したがって、両眼画像の超解像性能を向上させるには、左右の視点の間で補完的な情報を合理的に利用することが非常に重要ですこのコンペティションの目的は、バイキュービック補間ダウンサンプリングを使用して両眼画像 SR のベンチマークを確立し、最終的な忠実度指標を評価指標として使用して、研究者に知識と洞察を共有してアルゴリズムのパフォーマンス向上を促進し、容易にする共通の機会を提供することです。立体画像の超解像技術の開発。

画像復元タスクでは、多くの場合、多段階の処理戦略が使用されます。Transformer ベースの手法は、単一画像の超解像度タスクでは高い効率を示していますが、立体的な超解像度タスクでは CNN ベースの手法を上回る大きな利点はまだ実証されていません。これは 2 つの重要な要因に起因すると考えられます: 第一に、現在の単一画像超解像度トランスフォーマーは処理中に相補的なステレオ情報を利用できないこと、 解像度タスクに十分なデータがないこと。これらの問題に対処するために、チームはハイブリッド Transformer および CNN アテンション ネットワーク (HTCAN) を提案しました。これは、単一画像の強調には Transformer ベースのネットワークを、立体情報融合には CNN ベースのネットワークを利用します。さらに、チームはマルチパッチトレーニング戦略とより大きなウィンドウサイズを採用して、受容野を拡大しましたチームはまた、データ拡張、データ合成、モデル合成などの他の高度な技術を再検討して、過剰適合やデータの偏りを軽減し、最終的に他の競合他社を上回り、1位を獲得しました。

論文リンク: https://arxiv.org/pdf/2305.05177.pdf

34b97ca519b446a670eb1f575ed11070.png

全体的な両眼超解像戦略

360°パノラマ画像超解像トラック:2段階のフレームワークにより全方向の画像解像度が向上

360° パノラマ画像は、あらゆる視点を表現でき、より没入型でインタラクティブな体験を提供できる画像であるため、VR/AR アプリケーションで広く使用されています。ただし、魚眼レンズを使用しているなどの理由により、360°パノラマ画像の解像度は低く、画像の鮮明さや細部に影響を与えます。したがって、360°パノラマ画像の解像度をいかに向上させるかが重要な研究方向となっています。

超解像度は、低解像度の画像から高解像度の画像の細部を復元することによって画像の解像度を上げることを目的とした画像処理技術です。360° パノラマ画像では、超解像技術により、低解像度のパノラマ画像から欠落した高周波情報を復元することで、画像の鮮明さと詳細を向上させることができ、ユーザー エクスペリエンスが向上します。

このコンペでは、チームは 360° パノラマ画像の超解像のための 2 段階のフレームワークを提案しました。最初のステージでは 2 つのブランチを採用しています: パノラマ位置認識変形可能ブロック (OPDB) とフーリエ アップサンプリングを含むモデル A、モデル B はモデル A に空間周波数融合モジュール (SFF) を追加します。モデル A は 360 度画像の位置情報の特徴抽出能力を強化することを目的とし、モデル B はさらに 360 度画像の高周波情報に焦点を当てます。第 2 段階では、モデル A の構造に基づいて、360° 画像が同じ解像度で強化されます。さらに、チームは公開データセットから球状データを収集し、劣化ネットワークを使用して擬似低解像度画像を生成し、Transformer のフィッティング能力を向上させています。チームが提案した手法は優れた性能を発揮し、NTIRE 2023 360°パノラマ画像超解像チャレンジで優勝しました。

論文リンク: https://arxiv.org/pdf/2304.13471.pdf

4f9a895a264e6c9910d69063f57bed1d.png

グローバル球状オーバースコア戦略

7509d27a2374293e99cca90a8c93b029.png

モデルAとモデルBのネットワーク構成

火山エンジン マルチメディア研究所は、両眼超解像度バイキュービック補間忠実度および 360 度パノラマ画像超解像度の分野で画期的な進歩を遂げ、ダブルトラックチャンピオンシップを獲得しました。2 つの技術ソリューションは、ユーザーが多様で複雑なシーンでより鮮明で詳細な画像表示効果を得るのに役立ち、ビデオ業界の発展をよりインテリジェントで効率的な方向に促進するのに役立ちます。そのうち、360°パノラマ画像の超解像度技術は Xingfuli アプリに適用されており、火山エンジン veImageX 製品を通じて企業に公開されています。

Volcano Engine Multimedia Laboratory は ByteDance 傘下の研究チームであり、マルチメディア分野の最先端技術の探索と国際標準化作業への参加に専念しており、その革新的なアルゴリズムとソフトウェアおよびハードウェア ソリューションの多くは、Douyin や Douyin などのマルチメディア製品で広く使用されています。 Xigua Video. ビジネスを展開し、Volcanic Engine のエンタープライズ レベルの顧客に技術サービスを提供します。研究室の設立以来、多くの論文がトップ国際会議や主要ジャーナルに選出され、いくつかの国際技術コンテストチャンピオン、業界イノベーション賞、最優秀論文賞を受賞しています。

Volcano EngineはByteDance傘下のクラウドサービスプラットフォームで、ByteDanceの急速な発展の中で蓄積された成長手法、技術力、ツールを外部企業に開放し、クラウドインフラ、ビデオやコンテンツの配信、ビッグデータ、人工知能、開発を提供する。企業のデジタル アップグレードにおける継続的な成長を支援する運用および保守サービス。

参加しませんか

ByteDance ビデオ アーキテクチャは、ByteDance のビデオ中間段階部門です。ByteDance の製品オンデマンド、ライブ ブロードキャスト、リアルタイム通信、写真、およびマルチメディア ビジネス開発をサポートしています。目標は、業界のマルチメディア ソリューションのリーダーとなり、究極のソリューションを構築することです。ビデオテクノロジー/製品サービスの経験。

現在、ビデオ アーキテクチャ チームは、ByteDance の volcano エンジンを通じて技術機能とサービスを企業に開放しています。

火山エンジン の連絡先

下の QR コードをスキャンするか、記事の最後をクリックして原文を読んで履歴書を提出し、私たちに参加して、一緒にマルチメディア分野のリーダーになりましょう。

d176b8e99b061ad7321639da9f9ef846.png

ビデオ コーデック アルゴリズム エンジニア - マルチメディア ラボ (北京/上海/杭州/深センの求人)

fe61349980e6320832dae66642312ff6.png 「原文を読む」をクリックするとすぐに配信されます

おすすめ

転載: blog.csdn.net/ByteDanceTech/article/details/130695684