スタンフォード大学呉嘉軍チームによる新作: 写真やテキストから無限の 3D 世界を生成!ネチズンは「信じられない」と語った。 。 。 ...

点击下方卡片,关注“CVer”公众号

AI/CVの重要な情報をいち早くお届け

クリックして入力 ->[Visual および Transformer] WeChat コミュニケーション グループ

QR コードをスキャンして CVer Academic Planet に参加しますトップのカンファレンスやジャーナルの最新の論文のアイデアをできるだけ早く学ぶことができます< /span> と履歴書は、初心者レベルから上級者向けの資料、さらには最先端のプロジェクトやアプリケーションまで揃っています。論文を発表し、科学研究に従事することを強くお勧めします。

283658a77cd6708be9122e424d03964d.jpeg

転載元: Qubit (QbitAI) | 青飛廟の西風

スタンフォード大学の呉嘉軍氏のチームが傑作「不思議の国のアリス」のAI版を制作!

写真またはテキストのみを使用して、カメラの軌跡に沿って無限に一貫した 3D シーンを生成します:

b3d956dc45ad04071fe0d1b919e20689.gif

古代の詩の一部分を入力するだけで、詩の情景がすぐに表示されます。

80e31f8dda51da11360a4fc98604782b.gif

そして、もう一度戻ることができる往復タイプです。

5f97ba527bb0abfadfb6c1e613cc20ef.gif

同じ開始点から異なるシナリオに入ることができます。

89f3c8b73f518e838b5766e6e4c025b5.gif

実際のシーンも使用でき、キャラクターの影やその他のディテールに違反感がありません。

f521388aa65554cded7ed9b963c1a2a7.gif

ブロックワールドは問題なく、まるで「My World」が開かれたかのようになります。

607daf89af7791194f397d322b7ddb8a.gif

この作品はワンダージャーニーと呼ばれ、スタンフォード大学の呉嘉軍氏のチームと Google Research が共同で作成しました。

f2bef0e680b67f57038d42145ffad2ca.png

WonderJourney は、多様で一貫性のある 3D シーンを任意の位置から無限に生成できることに加え、テキスト記述に基づいて生成する際の制御性も高くなります。

ビデオの上にマウスを置くだけで、自動スクロールを一時停止できます。

この作品の公開により、ネチズンは「信じられない」と言った。プロジェクト コードはまだ正式にリリースされていませんが、200 個以上の星を獲得しています。

e9c27929de658329fa4c492dc483ce76.png

AI研究者のザンダー・スティーンブルージュ氏は驚いてこう言った。

これは、生成 AI と従来の 3D テクノロジーの完璧な組み合わせです。

af4ec6e72687d6f4cb446ce2a95ab108.png

ご存知のように、前作は単一の種類のシーンに焦点を当てていましたが、ワンダージャーニーは新しい世界への扉を開いたと言えます。

では、これは具体的にどのように行われるのでしょうか?

3Dの素晴らしい旅を始めましょう

無限に一貫性のある 3D シーンを生成する際に解決すべき主要な問題は、要素の多様性を維持しながらシーン要素の論理的な組み合わせをどのように生成するかということです。

生成する要素の空間的位置の合理性を判断し、新旧シーン間のオクルージョン関係や視差などの幾何学的関係に対処する必要がある。

WonderJourney がこの点を非常に慎重に扱っていることがわかります。

25bfe92ec179ca9f5a7dfc4a8f112a6d.gif

どのようなスタイルであっても、簡単にコントロールできます。

17f60e181bf480f6f5a338291c706f4a.gif

これを可能にする鍵は、WonderJourney のモジュール化プロセスにあります。

全体的な生成プロセスは、「どのようなオブジェクトを生成するかを決定する」、「それらのオブジェクトをどこに配置するか」、「これらのシーンを幾何学的に接続する方法」の 3 つのステップに分かれています。

完了するには、次の 3 つのモジュールが必要です。

  • シーン説明の生成: 大規模言語モデル (LLM) を使用して、現在のシーンに基づいて次のシーンのテキスト説明を生成します。

  • ビジュアル シーンの生成: テキストの説明を 3D 点群で表されるシーンに変換します。

  • 視覚的な検証: VLM を使用して生成されたシーンを検証し、不当な結果が検出された場合は再生成を開始します。

700a1c061764e99040d8c2ae7e20a28c.png

具体的には、シーン記述生成モジュールでは、事前トレーニングされた LLM を使用して現在のシーン記述を入力し、次のシーンが自動回帰によって生成されます。これには、 スタイルが含まれます。オブジェクトと背景。3 部構成の説明。

さらに、新しいシーンの説明が作成されるたびに、自然言語の説明を品詞でフィルタリングして名詞と形容詞のみを保持する必要があります。生成されると更新されます シーンは思い出を描写します。

ビジュアル シーン生成モジュールでは、まず現在の画像/テキストが 3D 点群表現に変換されます。

e9fc1b50e147bab97d0eba6f2526bc14.png

次に、深度リファインメントを使用して、オブジェクト境界の深度の不連続性を強調します。平たく言えば、境界の両側の深度コントラストがより明確になり、それによって遷移がより現実的になります。

次に、テキストガイドによる修復を使用して、テキストの説明に基づいて新しいシーン イメージが生成されます。

研究者らはまた、新旧のシーンのオクルージョンと点群の位置合わせを改善するために、深度の一貫性の損失と再レンダリングの一貫性メカニズムを設計しました。

最後に、ビジュアル検証モジュールは VLM プロンプトを使用して、生成されたイメージ内のフレーム、ブラーなどの悪い結果を検出し、検出された場合はシーンを再生成します。

これら 3 つのモジュールは、最先端の事前トレーニング済みモデルを実装して置き換えることができるため、トレーニングは必要ありません。

実験試験

コヒーレント 3D シーンの生成は、既存の利用可能なデータセットがない新しいタスクであるため、研究者らは自分の写真、オンラインからの著作権フリーの写真を使用し、実験での評価用の画像を生成しました。

さらに、画像ベースの InfiniteNature-Zero とテキストベースの SceneScape という 2 つの最先端の連続ビュー生成方法がベースラインとして使用されます。

定性的な結果は、さまざまなタイプの入力から生成された一貫した 3D シーン シーケンスの有効性を示しており、この方法が任意の入力から開始して生成できることを示しています。

9deebd40fb3ff7cbe2ed2cf783018920.png

さらに、同じ入力が異なる出力を生成する可能性があり、アプローチの多様性を示しています。

addee6178e931d4ad071bed2690cda16.png

研究者らはまた、生成効果の多様性、視覚的な品質、シーンの複雑さ、興味という 4 つの側面から人間の好みを評価しました。

22f07dd5c5bde5d4964df339e9a670f3.png

結果として、WonderJourney 手法は InfiniteNature-Zero や SceneScape よりも大幅に優れています。

405b8e651e7f25409c5c2ad299345a92.png

著者について

この論文はスタンフォード大学の Wu Jiajun チームと Google Research によるものです。

この論文の筆頭著者はスタンフォード大学博士課程4年生のYu Honxing氏で、指導教員はWu Jiajun氏です。

ba3427b47da928156499c0f0a1ada1b9.png

主な研究分野は、物理シーンの理解と動的モデリングです。

Yu Honxing はかつて Google Research Institute でインターンをしており、論文の一部はインターンシップ中に完了しました。

Wu Jiajun 氏は現在、スタンフォード大学の助教授であり、スタンフォード視覚学習研究所 (SVL) およびスタンフォード人工知能研究所 (SAIL) に所属しています。

マサチューセッツ工科大学で博士号を取得し、清華大学八尾教室で学士号を取得し、かつては「清華大学のトップ10に入る大学の1つ」として知られていました。

306f7394579d1a0032be53434a3ad8d8.png

論文リンク: https://arxiv.org/abs/2312.03884

参考链接:
[1]https://twitter.com/koven_yu/status/1733192368508322080
[2]kovenyu.com/wonderjourney/

CVPR/ICCV 2023 ペーパーとコードのダウンロード

 
  

バックエンド応答:CVPR2023、CVPR 2023 の論文のコレクションとオープンソースの論文をダウンロードできます

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
计算机视觉和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
  
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
  
▲点击上方卡片,关注CVer公众号
整理するのは簡単ではありません、いいねして見てくださいccb9a6a9dd3ea5bfe34dfb3fef800389.gif

おすすめ

転載: blog.csdn.net/amusi1994/article/details/135028236