ICCV 2023 | ByteDance PICO Intelligent Creation チームの最新 XR/VR 研究成果の共有

導入

成長を続ける人工知能 (AI) 分野では、データは常に最も貴重なリソースの 1 つとみなされてきました。データ駆動型 AI は、特にハードウェアとアルゴリズムが急速に反復される XR (拡張現実) の分野で、前例のない方法で未来を形作っています。この分野では、インタラクティブ AI アルゴリズムの開発にはデータの効率、品質、スケーラビリティが重要です。

私たちはPICOデータ中心の人工知能を構築する Interactive Data Labs チームです。 XR (拡張現実) インタラクションの分野では、高精度で堅牢な 3D インタラクションが優れたユーザー エクスペリエンスを提供する基盤です。これは、より高い精度やより優れた汎化パフォーマンスなど、アルゴリズム モデルをサポートするデータ ラベルに対するより高い要件があることも意味します。

過去 1 年ほどにわたり、私たちはデータ関連の問題の解決に重点を置き、特に次のことに重点を置いてきました。

  • 高效数据获取 (HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning)
  • 高精度数据标注(Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images)
  • 数据应用 (Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling)

ここで、ICCV2023 に採択された 4 つの研究の結果を皆さんと共有できることを大変うれしく思います。

ハムコ

論文のタイトル: 「HaMuCo: マルチビュー共同自己教師あり学習による手の姿勢推定」
プロジェクト リンク:https://zxz267.github .io/HaMuCo
論文リンク:https://arxiv.org/abs/2302.00988

近年、3D 手の姿勢推定に関する研究は大幅に進歩しましたが、これらの進歩は主に大規模な注釈付き 3D データセットに依存しています。このようなデータセットの構築は、時間と労力のかかるプロセスです。 3D アノテーションへの依存を回避するために,この研究では新しいマルチビューハンド協調自己教師あり学習法 HaMuCo を提案する.この方法は学習可能なクロスビューインタラクションネットワークを使用してシングルビューネットワークを監視し,より良いパフォーマンスを達成するラベルノイズが大きい状況でも安定して効果的な自己教師ありトレーニングを実現します。

HaMuCoシングルビューネットワークとクロスビューインタラクションネットワークの2段階のネットワーク構造を採用しています。シングルビュー ネットワークは、モデルベース (MANO) 手法を使用して手の事前知識を提供し、ノイズの多い擬似ラベル トレーニングのみに基づいて比較的堅牢な手の姿勢推定結果をもたらし、マルチビュー ネットワークのさまざまな豊富な機能を提供します。効果的な手の特徴。クロスビュー インタラクション ネットワークは、まず各ビューによって提供されるハンド フィーチャを使用してマルチビュー グラフ構造フィーチャを構築し、次にデュアルブランチ クロスビュー インタラクション モジュールを使用してマルチビュー フィーチャ インタラクションを実行します。回帰のために他のビューの相補的な特徴をキャプチャして、より正確な 3D 手の姿勢推定結果を生成します。最後に、クロスビュー インタラクション モジュールの出力結果に対してマルチビュー フュージョンを実行し、より正確なフュージョン結果を使用して自己蒸留します。シングルビューネットワーク。正確なラベル監視が欠如しているため、この研究では、クロスビュー ネットワークの自己教師あり学習をガイドする 2 つのマルチビュー一貫性損失関数を設計しました。

この研究では、HaMuCo の各設計が手動の自己教師あり学習にプラスの効果をもたらすことを多数の実験を通じて検証しました。同時に、この方法はさまざまなシナリオ (教師あり/なし) に適用できます。外部パラメータ、単一/複数の視点)、さまざまなシナリオにおける自己監視パフォーマンスは既存の方法よりも優れています。この作品もECCV HANDS22 Challenge第1位を獲得しました。

あなた

論文のタイトル: 「単一 RGB 画像から相互作用する手を再構成するための分離型反復改良フレームワーク」
プロジェクト リンク:https://pengfeiren96. github.io/DIR
論文リンク:https://arxiv.org/abs/2302.02410

密接に相互作用する手の 3D 再構築は、非常に困難な作業です。一方で、密接に相互作用する手の場合、手の関節点間にさまざまな空間依存性があり、手の姿勢の解空間が複雑であるため、手の姿勢予測の難易度が大幅に高まります。手の局所的な外観の類似性 高度かつ密接なインタラクションを伴う手の間には、重度の相互オクルージョンが存在することが多く、ネットワークによって抽出された視覚的特徴が容易に混同され、再構成された手のモデルと画像の間の位置ずれが生じます。

これらの問題を解決するために、正確な手の姿勢予測と画像の位置合わせを同時に達成できる分離型反復補正フレームワーク (DIR) を提案します。 DIR は、2 次元の視覚特徴空間と 3 次元のノード特徴空間を構築します。 DIR は、3 次元のノード空間で短距離と長距離の手の関係をモデル化し、2 次元の視覚特徴空間で局所的な視覚特徴の混乱を解消します。 DIR は、反復的な特徴強調と手の姿勢補正を実現する媒体としてノード特徴を使用し、2 次元と 3 次元の間の空間マッピング関係を通じて 2 つの空間を伝達します。 DIR は、現時点で最も困難な両手データセットで SOTA をはるかに超える手の再構成精度とピクセル位置合わせ効果を達成しており、同時に仮想データ支援トレーニングを必要とせずに強力な一般化機能を実証しています。この作品は ICCV2023 Oralに選出されました。

単一ビューで手を再構築する

論文のタイトル: 「単眼画像から事前にインタラクションを行うインタラクションハンドの再構成」
プロジェクト リンク:https://github.com/binghui- z/InterPrior_pytorch
論文リンク:https://arxiv.org/abs/2308.14082

単一ビューの単一ビュー再構成タスクと比較して、単一ビューから両手を再構成することは、より大きな課題に直面しています。単一ビューの固有のあいまいさ、両手の類似した外観、および深刻な自己オクルージョンのため、単一のビューから画像を入力するため、各関節の位置を正確に特定することは困難な作業です。これらの問題を解決するために、我々は問題を解決するための新しい方法を提案する。まず、両手対話の事前分布を構築し、この事前分布からの条件付きサンプリングのタスクとして対話再構成タスクを定義する。

両手対話事前構築の成功は 2 つの側面から来ています。 MoCap システムに基づいて、MANO パラメータ モデルを取得するために大規模な両手対話データ セットを構築しました。これらのデータに対して、平均エンコード モジュール、分散エンコード モジュール、および平均と分散を予測し、目的のインタラクションを出力するリサンプリング モジュールを含む、変分エンコーダに基づいた両手インタラクション事前ネットワークを構築しました。リサンプリング後のデコーダの結果。最後に、ViT を使用して単一ビュー画像の特徴を抽出し、それらのインタラクティブな事前相関を完全に統合して、最終的に手の再構成の SOTA 結果を取得します。これは手のインタラクションを再構築する上で大きな可能性を秘めており、AR/VR 分野の発展に重要な貢献をもたらすでしょう。

リアルな全身追跡

論文のタイトル: 「関節レベル モデリングによる疎な観測からの現実的な全身追跡」
プロジェクト リンク:https://zxz267. github.io/AvatarJLM
論文リンク:https://arxiv.org/abs/2308.08855

VR/AR シナリオでデジタル ヒューマンをより自然かつ正確に操作することは、ユーザーにより没入型のエクスペリエンスを提供するのに有益です。 VR/AR シナリオでは、ヘッドセットとコントローラーの追跡情報を取得するのが最も簡単です。この限られた追跡情報を使用してデジタル ヒューマンを運転することは、制約があり、非常に困難な作業です。この点において、本研究では、関節点相関をモデル化し、それによって3つの追跡情報シーケンスに基づいて正確で滑らかかつ合理的な全身姿勢シーケンスを回帰できる2段階のフレームワークを提案します。

最初のステージ

第 1 段階では、この方法はまず多層パーセプトロンを通じて初期の全身関節点情報を取得し、この情報と入力追跡信号 (関節点位置特徴、関節点を含む) に基づいて関節レベルの特徴シーケンスを構築します。回転機能、入力機能)。

第2段

第 2 段階では、関節レベルの特徴シーケンスを時空間変換器に入力して関節点間の時空間関係を捕捉し、より正確な全身ポーズ シーケンスの結果を取得します。

さらに、この方法では、複数の損失関数 (手の位置合わせ損失関数、動的相関損失関数、および物理相関損失関数) を利用して、このような制約のあるタスクでこの 2 段階のフレームワークをより適切にトレーニングします。

最後に、仮想データ セット (AMASS) と実際の取得データ セットに関する多数の実験により、この方法が既存の方法よりも優れた精度、滑らかさ、物理的合理性を達成できることが証明されました。

最後に書きます

どなたでもこの論文についてコミュニケーションを取り、議論することができます。ご質問がございましたら、下記までご連絡ください。

おすすめ

転載: blog.csdn.net/CVHub/article/details/134225030