デイリーアカデミックエクスプレス5.31

CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理 

科目: 履歴書

1.プロンプトフリー拡散: テキストから画像への拡散モデルから「テキスト」を取り除く

タイトル:サイレント拡散: テキストから画像への拡散モデルから「テキスト」を抽出する

著者: Xingqian Xu、Jiay Guo、Zhangyang Wang、Gao Huang、Irfan Essa、Humfrey Shi

記事リンク: https://arxiv.org/abs/2305.16223

プロジェクトコード: https://github.com/SHI-Labs/Prompt-Free-Diffusion

まとめ:

        Text-to-image (T2I) 研究は、大規模な事前トレーニング済み拡散モデルと多くの新たなパーソナライゼーションおよび編集手法により、ここ 1 年で爆発的に増加しました。ただし、課題が 1 つ残っています。それは、テキスト ヒントのエンジニアリングと、カスタム結果のための高品質のテキスト ヒントの検索は、科学というよりも芸術に近いということです。さらに、「画像は千の言葉に匹敵する」と広く信じられているように、目的の画像をテキストで説明しようとすると、視覚的な詳細を完全にカバーできない曖昧な結果に終わることが多く、さらに追加の制御が必要になります。このペーパーでは、大胆な一歩を踏み出します。つまり、事前トレーニングされた T2I 拡散モデルから「テキスト」を取り出して、ユーザーにとっての重いヒント エンジニアリング作業を軽減します。私たちが提案するフレームワークであるプロンプトフリー拡散は、視覚的な入力のみに依存して新しい画像を生成します。「コンテキスト」として参照画像、オプションの画像構造条件、および初期ノイズを使用し、テキストによる手がかりはまったく使用しません。Scene の背後にあるコア アーキテクチャは Semantic Context Encoder (SeeCoder) で、一般的に使用されている CLIP ベースまたは LLM ベースのテキスト エンコーダを置き換えます。SeeCoder は再利用できるため、プラグイン コンポーネントとしても便利です。SeeCoder を 1 つの T2I モデルで事前トレーニングし、別の T2I モデルで再利用することもできます。広範な実験を通じて、プロンプトフリー拡散は、(i) 以前のサンプルベースの画像合成方法よりも優れたパフォーマンスを発揮する、(ii) プロンプトを使用したベスト プラクティスに従い、最先端の T2I モデルと同等のパフォーマンスを発揮する、(iii)期待できる品質で、アニメ キャラクターの生成や仮想試着など、他の下流アプリケーションにも自然に拡張できます。私たちのコードとモデルは、この https URL でオープンソースです。

2.物質主義:画像内の類似した素材を選択する

タイトル:唯物論: 画像内で類似した素材を選択する

著者: プラフル シャルマ、ジュリアン フィリップ、マイケル ガルビ、ウィリアム T. フリーマン、フレド デュラン、ヴァレンタン デシャントレ

記事リンク: https://arxiv.org/abs/2305.13291

まとめ:

        画像を意味のある基礎コンポーネントに分割することは、画像を編集して理解する上で重要な最初のステップです。アーティストが選択した領域と同じ素材を示す写真の領域を選択できるようにする方法を提案します。私たちが提案する方法は、実際の画像で選択できる影、鏡面ハイライト、キャストシャドウに対して堅牢です。セマンティック セグメンテーションに依存していないため (異なる木材や金属を一緒に選択すべきではない)、ユーザーが指定した画像の位置に基づいて問題を類似性に基づくグループ化問題として定式化します。特に、教師なし DINO 特徴を、提案された相互類似性モジュールおよび MLP ヘッドと組み合わせて利用して、画像内のマテリアルの類似性を抽出することを提案します。新しくリリースされた合成画像のデータセットでモデルをトレーニングします。私たちの方法が現実世界の画像によく一般化できることを示します。私たちは、さまざまなマテリアル特性や照明の下でのモデルの動作を注意深く分析しました。さらに、手動で注釈を付けた 50 枚の実際の写真のベンチマークで評価します。さらに、マテリアル編集、ビデオ内選択、類似マテリアルを持つオブジェクトの写真の取得などの一連のアプリケーションでモデルを実証します。

件名: cs.CL

3.Voyager: 大規模な言語モデルを備えたオープンエンドの具体化されたエージェント

タイトル: Voyager: 大規模な言語モデルを備えたオープンコンクリートエージェント

著者: Guanzhi Wang、Yuqi Xie、Yunfan Jiang、Ajay Mandlekar、Chaowei Xiao、Yuke Zhu、Linxi Fan、Anima Anandkumar

記事リンク: https://arxiv.org/abs/2305.16291

プロジェクトコード: https://voyager.minedojo.org/

まとめ:

        Voyager の紹介をご覧ください。Voyager は、人間の介入なしに世界を継続的に探索し、多様なスキルを習得し、新たな発見を行うことができる、Minecraft 初の LLM を利用した身体化された生涯学習エージェントです。Voyager は 3 つの重要なコンポーネントで構成されています。1) 探索を最大限に高める自動化されたカリキュラム、2) 複雑な動作を保存および取得するための実行可能コード スキルの成長ライブラリ、3) 環境フィードバック、実行エラー、および自己を組み合わせる新しい反復ヒンティング メカニズム- プログラム改善のための検証。Voyager はブラックボックス クエリを通じて GPT-4 と対話し、モデル パラメーターの微調整の必要性を回避します。Voyager によって開発されたスキルは、時間的に拡張可能で、解釈可能で、組み合わせ可能であり、エージェントの能力を迅速に強化し、壊滅的な忘却を軽減できます。経験的に、ボイジャーは強力なエピソード的な生涯学習を示し、Minecraft をプレイする際に顕著な熟練度を示しました。以前の SOTA よりも 3.3 倍多くのユニークなアイテムを取得し、2.3 倍の距離を移動し、主要な技術ツリーのマイルストーンを 15.3 倍の速さでアンロックします。Voyager は、他の技術では一般化するのに苦労した学習済みスキルのプールを使用して、新しい Minecraft の世界で新しいタスクをゼロから解決することができました。私たちは完全なコードベースをオープンソース化しており、この https URL をヒントにしています。

Aiの詳細情報:Princess AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/131030932