デイリーアカデミックエクスプレス5.26

CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理 

科目: 履歴書

1.Text2NeRF: ニューラル放射フィールドを使用したテキスト駆動の 3D シーン生成

タイトル: Text2NeRF: 神経放射場を使用したテキスト駆動の 3D シーン生成

著者: Jingbo Zhang、Xiaoyu Li、Ziyu Wan、Can Wang、Jing Liao

記事リンク: https://arxiv.org/abs/2305.11588

プロジェクトコード: https://eckertzhang.github.io/Text2NeRF.github.io/

まとめ:

        テキスト駆動の 3D シーン生成は、3D シーンに対する要求が高いビデオ ゲーム、映画業界、メタバース アプリケーションに広く適用できます。しかし、既存のテキストから 3D への生成方法は、単純な幾何学的形状を持ち、現実感に欠けた夢のような 3D オブジェクトを生成することに限定されています。この作業では、純粋にテキスト キューから複雑なジオメトリと高忠実度のテクスチャを備えたさまざまな 3D シーンを生成できる Text2NeRF をデモします。この目的を達成するために、3D 表現として NeRF を採用し、事前にトレーニングされたテキストから画像への拡散モデルを利用して、シーンの記述を反映するように NeRF の 3D 再構成を制約します。具体的には、拡散モデルを使用してテキスト関連画像をコンテンツ事前分布として推定し、単眼奥行き推定法を使用して幾何学的事前分布を提供します。コンテンツ事前分布とジオメトリ事前分布の両方を使用して、NeRF モデルを更新します。異なるビュー間のテクスチャと幾何学的一貫性を保証するために、シーンの新しいビュー合成のためのプログレッシブ シーン修復および更新戦略を導入します。私たちの方法では追加のトレーニング データは必要なく、入力としてシーンの自然言語記述のみが必要です。広範な実験により、当社の Text2NeRF は、さまざまな自然言語キューからリアルでマルチビューの一貫性のある多様な 3D シーンを生成する際に、既存の方法よりも優れていることが実証されました。

2.ハイブリッド プロンプト正則化によるトレーニングなしで異常をセグメント化する

タイトル:混合プロンプト正則化によるトレーニングなしの異常のセグメント化

著者: Yunkang Cao、Xiaohao Xu、Chen Sun、Yuqi Cheng、Zongwei Du、Liang Gao、Weiming Shen

記事リンク: https://arxiv.org/abs/2305.10724

プロジェクトコード: https://github.com/caoyunkang/Segment-Any-Anomaly

まとめ:

        私たちは、最新の基本モデルの適応性を向上させるために、ゼロショット異常セグメンテーションとハイブリッド ヒント正則化のための新しいフレームワーク、Segment Any Anomaly+ (SAA+) を提案します。既存の異常セグメンテーション モデルはドメイン固有の微調整に依存していることが多く、無数の異常パターン全体にわたる一般化が制限されています。この作業では、Segment Anything などの基本モデルの強力なゼロショット一般化機能に触発され、まず、異常位置特定のためのさまざまなマルチモーダル事前分布を利用するためのアセンブリを調査します。異常セグメンテーションのためのノンパラメトリック基本モデル適応のために、領域専門知識とターゲット画像コンテキストから得られたハイブリッド キューを正則化としてさらに導入します。私たちが提案する SAA+ モデルは、ゼロショット設定の VisA、MVTec-AD、MTD、KSDD2 を含む複数の異常セグメンテーション ベンチマークで最先端のパフォーマンスを達成します。

3.VisionLLM: 大規模言語モデルは、ビジョン中心のタスク用のオープンエンド デコーダーでもあります

タイトル: VisionLLM: 大規模言語モデルはビジョン中心のタスク用のオープン デコーダーでもあります

著者: Wenhai Wang、Zhe Chen、Xiaokang Chen、Jiannan Wu、Xizhou Zhu、Gang Zeng、Ping Luo、Tong Lu、Jie Zhou、Yu Qiao、Jifeng Dai

記事リンク: https://arxiv.org/abs/2305.11175

プロジェクトコード: https://github.com/OpenGVLab/VisionLLM

まとめ:

        大規模言語モデル (LLM) は、汎用人工知能 (AGI) の進歩を大幅に加速させ、ユーザーに合わせたタスクに対する優れたゼロショット機能により、さまざまなアプリケーションで大きな可能性をもたらします。ただし、コンピューター ビジョンの分野では、多数の強力なビジョン基盤モデル (VFM) が利用可能ですが、それらは依然として事前定義された形式のタスクに限定されており、LLM のオープン タスク機能に匹敵するのは困難です。この研究では、VisionLLM と呼ばれる、ビジョン中心のタスクのための LLM ベースのフレームワークを提案します。このフレームワークは、画像を外国語として扱い、言語指示を使用して柔軟に定義および管理できる言語タスクと視覚中心のタスクを調整することにより、視覚および言語タスクに関する統一された視点を提供します。その後、LLM ベースのデコーダは、これらの命令に基づいて、オープンエンド タスクに対して適切な予測を行うことができます。広範な実験の結果、提案された VisionLLM は、言語命令を通じて、きめの細かいオブジェクト レベルのカスタマイズから、きめの細かいタスク レベルのカスタマイズまで、さまざまなレベルのタスク カスタマイズを実現でき、良好な結果を達成したことが示されています。特に、汎用 LLM ベースのフレームワークを使用することで、私たちのモデルは COCO で 60% 以上の mAP を達成でき、これは検出固有のモデルと同等です。私たちは、このモデルが一般的な視覚モデルと言語モデルの新しいベースラインを設定できることを願っています。

Aiの詳細情報:Princess AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/130911699