デイリー アカデミック エクスプレス 6.3

CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理  

科目: 履歴書

1.心の目の再構成: 対照学習と拡散事前分布を使用した fMRI から画像への変換

タイトル: 心の目の再構築: 対照学習と拡散事前分布を使用した fMRI から画像への変換

クレジット: Paul S. Scotti、Atmadeep Banerjee、Jimmie Goode、Stepan Shabalin、Alex Nguyen、Ethan Cohen、Aidan J. Dempster、

記事リンク: https://arxiv.org/abs/2305.18274

プロジェクトコード: https://medarc-ai.github.io/mindeye-website/

まとめ:

        脳活動から観察された画像を取得して再構成する新しい fMRI から画像へのアプローチである MindEye を紹介します。私たちのモデルには、検索 (対照学習を使用) と再構成 (拡散事前分布を使用) 専用の 2 つの並列サブモジュールが含まれています。MindEye は、fMRI の脳活動を CLIP 画像空間などの高次元マルチモーダル潜在空間にマッピングすることができ、この潜在空間からの埋め込みを受け入れる生成モデルを使用して画像の再構成を可能にします。私たちは、定性的な並列比較と定量的な評価の両方を使用して、私たちの方法を他の既存の方法と包括的に比較し、MindEyeが再構成タスクと検索タスクの両方で最先端のパフォーマンスを達成することを示します。特に、MindEye は、類似性の高い候補間でも正確な元の画像を取得します。これは、MindEye の脳埋め込みが画像固有のきめ細かい情報を保存していることを示唆しています。これにより、LAION-5B などの大規模データベースから画像を正確に取得できるようになります。我々は、アブレーションを通じて、以前の方法に比べて MindEye のパフォーマンス向上が、検索と再構成用に特化したサブモジュール、改善されたトレーニング技術、および桁違いに多くのパラメーターを使用してトレーニングされたモデルに起因することを実証します。さらに、MindEye が img2img と別のオートエンコーダーからの出力を併用することで、再構成時に低レベルの画像特徴をより適切に保存できることを示します。すべてのコードは GitHub で見つけることができます。

2.RAPHAEL: 拡散パスの大量混合によるテキストから画像への生成

タイトル: RAPHAEL: 多数の混合拡散パスを介して画像にテキストを生成する

著者: Zeyue Xue、Guanglu Song、Qiushan Guo、Boxiao Liu、Zhuofan Zong、Yu Liu、Ping Luo

記事リンク: https://arxiv.org/abs/2305.18295

プロジェクトコード: https://raphael-painter.github.io

まとめ:

        テキストから画像への生成は、最近目覚ましい成功を収めています。RAPHAEL と呼ばれるテキスト条件付き画像拡散モデルを導入し、複数の名詞、形容詞、動詞を含むテキスト キューを正確に描写する高度に芸術的な画像を生成します。これは、数十の混合エキスパート (MoE) レイヤー (つまり、空間 MoE レイヤーと時間 MoE レイヤー) を積み重ねることによって実現され、その結果、ネットワーク入力から出力までの数十億の拡散パス (ルート) が形成されます。各パスは、拡散タイム ステップで指定された画像領域に特定のテキスト概念をペイントするための「ペインタ」として直感的に機能します。包括的な実験により、RAPHAEL は、画質と美的魅力の点で、Stable Diffusion、ERNIE-ViLG 2.0、DeepFloyd、DALL-E 2 などの最近の最先端モデルよりも優れていることが示されています。まず、RAPHAELは日本のコミック、リアリズム、サイバーパンク、墨絵など様々なスタイルの画像切り替えに優れたパフォーマンスを発揮します。2 番目に、1,000 個の A100 GPU で 2 か月間トレーニングされた 30 億のパラメーターを持つ単一モデルは、COCO データセットで最先端のゼロショット FID スコア 6.61 を達成しました。さらに、RAPHAEL は人間による評価による ViLG-300 ベンチマークで競合製品を大幅に上回っています。私たちは、RAPHAEL が学術界と産業界の両方で画像生成研究の最前線を押し広げ、この急速に発展する分野における将来のブレークスルーへの道を開く可能性を秘めていると信じています。詳細については、プロジェクトの Web ページ (https URL) でご覧いただけます。

3.マルチモーダル言語モデルによる画像の生成 

タイトル: マルチモーダル言語モデルを使用した画像生成

作宇:Jing Yu Koh、Daniel Fried、Ruslan Salakhutdinov

記事リンク: https://arxiv.org/abs/2305.17216

プロジェクトコード: http://jykoh.com/gill

まとめ:

        我々は、埋め込み空間間のマッピングを介して、凍結された平文大規模言語モデル (LLM) を事前学習された画像エンコーダおよびデコーダ モデルと融合する方法を提案します。私たちのモデルは、画像検索、新しい画像生成、マルチモーダル対話など、幅広いマルチモーダル機能を示します。私たちの方法は、任意にインターリーブされた画像とテキスト入力を調整して、一貫した画像 (およびテキスト) 出力を生成できる最初の方法です。画像生成で強力なパフォーマンスを達成するために、既製のテキストから画像への生成モデルに基づく LLM をベースとする効率的なマッピング ネットワークを提案します。このマッピング ネットワークは、テキストの非表示表現をビジュアル モデルの埋め込み空間に変換し、LLM の強力なテキスト表現をビジュアル出力に活用できるようにします。私たちの方法は、より長く複雑な言語を使用するタスクでは、ベースライン生成モデルよりも優れたパフォーマンスを発揮します。新しい画像の生成に加えて、私たちのモデルは事前に指定されたデータセットから画像を取得することもでき、推論時に取得するか生成するかを決定します。これは、LLM の隠蔽表現を条件とした決定モジュールを学習することによって行われます。以前のマルチモーダル言語モデルと比較して、私たちのモデルは幅広い機能を示します。画像とテキストの入力を処理し、取得された画像、生成された画像、および生成されたテキストを生成できます。コンテキストの依存関係を測定するいくつかのテキストから画像へのタスクにおいて、非 LLM ベースの生成モデルよりも優れたパフォーマンスを発揮します。

Aiの詳細情報:Princess AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/131030976