科学研究開発のリアルタイム追跡 | メモリ強化マルチモーダル言語モデルを備えたオープンワールド マルチタスク エージェント - JARVIS-1、11.13 の新規論文を選択

科学研究者は、最新の科学技術の進歩や研究成果を得るために、毎日大量の学術文献を検索・閲覧する必要があります。

しかし、従来の検索および読み取り方法では、科学研究者のニーズを満たすことができなくなりました。

AMiner AI は、検索、読み取り、知識 Q&A を統合した文献知識ツールです。論文の検索と閲覧の効率を迅速に向上させ、その分野の最新の研究動向を入手し、科学研究の作業をより快適にするのに役立ちます。

ここに画像の説明を挿入します

特定の論文について詳しく話し合いたい場合は、論文のリンクをブラウザに直接コピーするか、AMiner AI ページに直接アクセスできます:https: //www.miner.cn/chat/g/explain

2023 年 11 月 13 日に選ばれた新しい論文のリスト:

1.Instant3D: スパースビュー生成と大規模な再構成モデ​​ルによる高速テキストから 3D への変換

このペーパーでは、3D アセットを迅速かつ高品質で生成する Instant3D と呼ばれる新しい方法を紹介します。既存の方法とは異なり、Instant3D は 2 段階のアプローチを採用しています。まず、微調整された 2D テキストから画像への拡散モデルを使用してスパース 4 構造の一貫したビューを一度に生成し、次にトランスフォーマーベースのスパース ビュー再構成器を使用します。生成された画像から直接 NeRF を退行させます。著者らは広範な実験を通じて、自分たちの方法が高品質で多様なヤヌスフリーの 3D アセットを 20 秒で生成できることを実証しました。これは、1 ~ 10 時間かかった以前の最適化ベースの方法よりも 2 桁高速です。

https://www.miner.cn/pub/65518a95939a5f4082a65ebe/?f=cs

2.バタフライ因数分解によるパラメータ効率の高い直交微調整

この論文では、下流のタスク適応のための原理的な微調整パラダイムである直交微調整 (OFT) を研究します。 OFT は優れた汎化能力を示しますが、直交行列の次元が高いため、依然としてかなりの数のトレーニング可能なパラメーターを使用します。この問題に対処するために、著者らは情報転送の観点から OFT を調査し、より良いパラメータ効率を達成するためのいくつかの重要な要件を特定しました。著者は、効率的な情報伝達を実現するために Cooley-Tukey 高速フーリエ変換アルゴリズムに触発され、バタフライ構造を使用した効率的な直交パラメータ化を提案しました。このパラメータ化を OFT に適用すると、直交バタフライ (BOFT) と呼ばれる、パラメータ効率の高い新しい微調整方法が作成されます。 OFT を特殊なケースとして一般化することにより、BOFT は一般的な直交微調整フレームワークを導入します。最後に、著者らは、大規模なビジュアルトランスフォーマー、大規模な言語モデル、およびテキストから画像への拡散モデルを、さまざまな視覚および言語の下流タスクに適応させることについて広範な実証研究を実施しています。

https://www.miner.cn/pub/65518ab0939a5f4082a66b9e/?f=cs

3.Lumos: 統合データ、モジュラー設計、オープンソース LLM を備えた学習エージェント

この文書では、言語エージェントをトレーニングするための Lumos と呼ばれる新しいフレームワークを紹介します。このフレームワークは、統一されたデータ形式と、オープンソースの大規模言語モデル (LLM) に基づくモジュラー アーキテクチャを採用しています。 Lumos は、計画、グラウンディング、実行という 3 つの異なるモジュールで構成されています。計画モジュールは、タスクをツールに依存しない一連の高次のサブ目標に分解し、それらはグラウンディング モジュールの下位のアクションを通じて具体化されます。これらのアクションは、さまざまな既製のツールと API を使用して実行モジュールによって実行されます。これらのモジュールを効果的にトレーニングするために、高品質のサブ目標とアクションのアノテーションが収集され、複雑な質問応答、ネットワーク タスク、数学的問題などのさまざまなタスクに合わせてオープンソース LLM を微調整するために使用されます。

この統合データとモジュール設計を活用することで、Lumos は現在の最先端エージェントと同等またはそれ以上のパフォーマンスを達成するだけでなく、いくつかの重要な利点も示します。 (1) Lumos は、複雑な質問応答およびネットワーキング タスクで優れたパフォーマンスを発揮します GPT-4/ 3.5 ベース エージェントでありながら、数学的タスクでは大幅に大規模な LLM エージェントと同等のパフォーマンスを発揮します; (2) Lumos は、従来のトレーニング方法と連鎖思考を使用してトレーニングされたオープンソース エージェントよりも優れたパフォーマンスを発揮します; (3) Lumos は、目に見えないインタラクション タスクを効果的に一般化し、大規模な LLM ベース エージェントよりも優れたパフォーマンスを発揮します専門エージェントのパフォーマンスを上回るパフォーマンスさえあります。

https://www.miner.cn/pub/65518952939a5f4082a5d9c9/?f=cs

4.Hiformer: レコメンダー システム用のトランスフォーマーを使用した異種機能相互作用の学習

この論文では、推奨システムにおける異種特徴の対話型学習のための Hiformer モデルを紹介します。特徴インタラクションはレコメンデーション システムを構築するための鍵ですが、大規模なアプリケーションでは、スパースで大規模な入力特徴空間のため、特徴インタラクションの学習は非常に困難であり、同時に、効果的な特徴インタラクションを手動で作成することは、指数関数的な理由により実行不可能です。のソリューションスペース。著者は、Transformer ベースのアーキテクチャとアテンション レイヤーを使用して、機能の相互作用を自動的にキャプチャすることを提案しています。 Transformer アーキテクチャは、自然言語処理やコンピューター ビジョンなどの分野で大きな成功を収めていますが、業界の機能相互作用モデリングでは広く使用されていません。著者らはこのギャップを埋めることを目指しています。彼らは、バニラの Transformer アーキテクチャを大規模レコメンデーション システムに適用する際の 2 つの重要な課題を特定しています: (1) Transformer アーキテクチャは、セルフ アテンション層での異種機能の相互作用をキャプチャできない、(2) Transformer アーキテクチャのサービス レイテンシが高すぎる可能性があるレコメンダー システムでの展開へ。著者は、異種セルフアテンション層を最初に提案しました。これは、機能相互作用の不均一性を考慮するために、Transformer のセルフアテンション層を変更する簡単かつ効果的な方法です。そこで、モデルの表現力をさらに向上させるために Hiformer (Heterogeneous Interaction Transformer) を導入しました。 Hiformer は、低ランク近似とモデル プルーニングにより、オンライン デプロイ推論速度が高速になります。多数のオフライン実験結果により、Hiformer モデルの有効性と効率性が確認されています。著者は、Google Play 上の実際の大規模アプリケーション ランキング モデルに Hiformer モデルを導入することに成功し、主要なエンゲージメント指標が 2.66% という大幅な改善を達成しました。

https://www.miner.cn/pub/655189d8939a5f4082a60f25/?f=cs

5.FMViT: 複数周波数混合ビジョントランス

このペーパーでは、FMViT と呼ばれる効率的なハイブリッド ビジョン コンバーター アーキテクチャを紹介します。セルフアテンションの 2 次時間計算量とメモリ複雑さのため、既存のビジュアル トランスフォーマー (ViT) は、実際の産業展開シナリオ (TensorRT や CoreML など) において、従来の畳み込みニューラル ネットワーク (CNN) と比較して課題を抱えています。 CNN と Transformer のハイブリッド アーキテクチャを設計することでこの問題を解決しようとする試みがいくつかありましたが、全体的なパフォーマンスは期待を満たしていません。これらの問題に対処するために、FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案します。この方法では、異なる周波数の高周波特徴と低周波特徴を組み合わせることでモデルの表現力が向上し、ローカルおよびグローバルな情報を効果的に捉えることができます。さらに、畳み込みマルチグループ再パラメータ化 (gMLP)、軽量マルチヘッドセルフアテンション (RLMHSA)、畳み込み融合ブロック (CFB) などの展開しやすいメカニズムも導入し、モデルのパフォーマンスをさらに向上させ、計算量を削減します。オーバーヘッド。私たちの実験では、FMViT が、さまざまな視覚タスクにわたる遅延/精度の点で、既存の CNN、ViT、および CNNTransformer ハイブリッド アーキテクチャよりも優れていることが実証されました。 TensorRT プラットフォームでは、FMViT は、同様の推論レイテンシーを維持しながら、ImageNet データセットで Resnet101 より 2.5% 高いトップ 1 精度 (83.3% 対 80.8%) を達成します。さらに、FMViT のパフォーマンスは EfficientNet-B5 と同等ですが、推論速度は 43% 高速です。 CoreML では、ImageNet データセットに対する FMViT のトップ 1 精度は MobileOne より 2.6% 高く、推論レイテンシーは MobileOne と同等です (78.5% 対 75.9%)。私たちのコードは https://github.com/tany0699/FMViT で見つけることができます。

https://www.miner.cn/pub/65518961939a5f4082a5dfd7/?f=cs

6.JARVIS-1: メモリ拡張マルチモーダル言語モデルを備えたオープンワールド マルチタスク エージェント

この論文では、JARVIS-1 と呼ばれるオープンソースのワールド マルチタスク エージェントを紹介します。これは、メモリ拡張マルチモーダル言語モデルを使用して、人間のような計画と制御を実現します。オープンソースの世界では、マルチモーダル観察 (視覚的観察と人間による指示) を処理することは、より強力な汎用エージェントにとって重要なマイルストーンです。既存の方法は、ある程度の長さのオープンワールド ミッションを処理できますが、ミッションの数が無限であり、ゲーム時間の経過とともにミッション完了能力を徐々に向上させることができない状況では、依然として課題に直面しています。 JARVIS-1 は、人気の挑戦的なオープンワールド Minecraft ユニバースでマルチモーダル入力 (視覚的観察とテキストによる指示) を認識し、複雑な計画を生成し、具体的な制御を実行できるオープンソースのワールド エージェントです。具体的には、JARVIS-1 は、視覚的な観察とテキストによる指示を計画にマッピングする、事前にトレーニングされたマルチモーダル言語モデルに基づいて構築されています。計画は最終的にターゲット条件コントローラーにディスパッチされます。 JARVIS-1 には、事前に訓練された知識と実際のゲームサバイバル経験を計画に活用するマルチモーダルメモリが装備されています。実験では、JARVIS-1 は、入門レベルから中級レベルまで、Minecraft ユニバース ベンチマークの 200 以上の異なるタスクでほぼ完璧に実行されました。長期にわたるダイヤモンドつるはしミッションにおいて、JARVIS-1 はこれまでの記録の 5 倍を超える 12.5% の完了率を達成しました。さらに、マルチモーダル記憶のおかげで、JARVIS-1 は生涯学習パラダイムに従って自己改善し、より広範な知性と自律性の向上を促すことができることを示します。プロジェクト ページは https://craftjarvis-jarvis1.github.io にあります。

https://www.miner.cn/pub/65518a1f939a5f4082a62ced/?f=cs

7.PolyMaX: マスクトランスフォーマーを使用した一般的な密な予測

この文書では、マスク トランスフォーマーに基づく汎用の密な予測手法である PolyMax を紹介します。セマンティック セグメンテーション、深度推定、表面法線予測などの高密度予測タスクは、ピクセル単位の分類 (離散出力) または回帰 (連続出力) として簡単に定式化できます。完全畳み込みネットワークの普及により、ピクセル単位の予測パラダイムが普及してきました。しかし、セグメンテーション タスクの最近の最前線では、トランスフォーマー アーキテクチャ、特にマスク トランスフォーマーの出現により、コミュニティは、ピクセル単位の予測から、ピクセルではなくマスクのラベルを直接予測するクラスター予測へのパラダイム シフトを目の当たりにしました。それにもかかわらず、深さ推定や表面法線予測など、継続的な出力を必要とする高密度予測タスクでは、ピクセルごとの予測パラダイムに基づく方法が依然として主流です。連続出力空間を離散化することによって達成された深さ推定における DORN と AdaBins の成功に触発され、クラスター予測方法を一般的な高密度予測タスクに一般化することを提案します。これにより、密予測タスクをマスク トランスフォーマー フレームワークと統合できるようになります。特に、PolyMax モデルは、NYUD-v2 データセットの 3 つのベンチマークで最先端のパフォーマンスを実証しています。私たちのシンプルかつ効果的な設計が、より集中的な予測タスクにマスク トランスフォーマーを活用するさらなる研究を促すことを願っています。コードとモデルは外部から利用できるようになります。

https://www.miner.cn/pub/6551898a939a5f4082a5f1a7/?f=cs

8.Mirasol3B: 時間調整されたコンテキストモダリティのためのマルチモーダル自己回帰モデル

この論文では、時間調整されたモダリティと時間調整されていないモダリティを処理するための、Mirasol3B と呼ばれるマルチモーダル自己回帰モデルを紹介します。マルチモーダル学習における主な課題は、異種のモダリティ (ビデオ、オーディオ、テキストなど) を組み合わせる必要があることです。たとえば、ビデオとオーディオはテキストよりもはるかに高い速度で取得され、時間的にほぼ一致しています。これらは通常、タイトルや説明などのグローバル コンテキストとして機能するテキストとは同期されません。さらに、ビデオおよびオーディオ入力の量ははるかに大きく、ビデオの長さが増加するにつれて自然に増加します。そのため、必然的にこれらのモダリティにより多くの計算リソースを割り当てる必要があり、長距離依存関係のモデリングがより困難になります。

著者らは、マルチモーダル モデリングを、モダリティの特性に基づいて入力を処理する個別の焦点を絞った自己回帰モデルに分離しました。彼らは、時間同期されたモダリティ (オーディオとビデオ) を処理するための自己回帰コンポーネントと、時間同期されていないがシリアル化されたコンテキストを処理するための自己回帰コンポーネントで構成される、Mirasol3B と呼ばれるマルチモーダル モデルを提案しました。ビデオとオーディオ入力の長いシーケンスの問題を解決するために、著者は、ビデオとオーディオのシーケンスを連続セグメントにさらに分割し、それらの表現を自己回帰的に処理することを提案します。この目的を達成するために、彼らは、1 つの時間枠内でオーディオ情報とビデオ情報を共同でモデル化する組み合わせメカニズムを提案しています。コンバイナーは、生の時空間信号からオーディオとビデオの特徴を学習し、これらの特徴を融合して各セグメントのコンパクトでありながら表現力豊かな表現を生成することを学習します。この手法は、複数のマルチモーダル ベンチマークで最先端のパフォーマンスを実現し、大規模なモデルを上回るパフォーマンスを実現します。コンパクトな表現を学習し、オーディオとビデオの特徴表現のシーケンス長を制御し、それらの時間的依存関係をモデル化することにより、メディア入力の高い計算要求に効果的に対処します。

https://www.miner.cn/pub/6551895f939a5f4082a5debc/?f=cs

9.FlashFFTConv: Tensor コアを使用した長いシーケンスの効率的な畳み込み

このペーパーでは、FlashFFTConv: Tensor コアを使用した長いシーケンスの効率的な畳み込み、長いシーケンス タスクの高速フーリエ変換 (FFT) 畳み込み演算の最適化手法を紹介します。既存のロングフィルター畳み込みモデルは、多くの長いシーケンス タスクに対して最先端の推論機能を示しますが、実際の実行時間では最適なトランスフォーマー モデルに遅れをとっています。このギャップを引き起こす主なボトルネックは、 O ( N l o g N ) O(N logN) で長い畳み込みを行う高速フーリエ変換 (FFT) です。O(Nlog N) は時間計算量の範囲内で実行されますが、ハードウェア使用率の観点からはパフォーマンスが低くなります。この問題を解決するために、著者は FlashFFTConv と呼ばれる畳み込み演算の最適化手法を提案しました。 FlashFFTConv は、行列分解を使用して FFT を計算し、行列乗算ユニットを使用してロング シーケンス カーネル フュージョンを実行して I/O を削減します。同時に、著者は 2 つのスパース畳み込みアルゴリズム、1) 部分畳み込みと 2) 周波数スパース畳み込みアルゴリズムも提案しました。これらは行列分解でブロックをスキップするだけで実装でき、メモリとコンピューティング リソースをさらに節約できます。実験結果は、FlashFFTConv が正確な FFT 畳み込みの速度を 7.93 倍向上させ、同じ計算予算の下で Hyena-GPT が PILE 上で 2.3 ポイント優れたパープレキシティを達成し、GLUE 上での M2-BERT ベースのパフォーマンスを向上させることを示しています。スコアは 3.3 に達しました。ポイントが高くなります。さらに、FlashFFTConv は Path-512 タスクで 96.1% の精度を達成しましたが、この高解像度ビジョン タスクでは以前のモデルが 50% を超える精度を達成したことはありませんでした。同時に、部分畳み込みにより、長い配列モデルで最長のヒト遺伝子 (230 万塩基対) を処理できるようになり、周波数スパース畳み込みにより、事前トレーニング済みモデルを高速化しながら、モデルの品質を維持または向上させることができます。

https://www.miner.cn/pub/655189e5939a5f4082a613e4/?f=cs

10.ADAaPT: 言語モデルを使用した必要に応じた分解と計画

この論文では、複雑なタスクの実行困難を解決するための ADAPT 手法を紹介します。この方法では、対話型の意思決定タスクに大規模言語モデル (LLM) を利用し、環境と LLM の機能に適応するように複雑なサブタスクを動的に分解して計画します。 ADaPT は、サブタスクを再帰的に分解してタスクの複雑さと LLM 機能に適応させることで、タスクの複雑さに関する既存の方法の欠点に対処します。実験結果によると、ALFWorld、WebShop、TextCraft などのタスクにおける ADAPT の成功率は、既存のベースライン手法よりも大幅に高く、最大 28.3% です。この論文では、詳細な分析を通じて、マルチレベル分解の重要性を示し、ADaPT がエグゼキューター LLM の機能とタスクの複雑さを動的に調整できることを実証しています。

https://www.miner.cn/pub/6551898c939a5f4082a5f245/?f=cs

11.プロンプトエンジニアリング プロンプトエンジニア

この論文では、大規模言語モデル (LLM) のパフォーマンスを最適化するための重要なタスクであるヒント エンジニアリングについて研究します。著者らは、自動ヒント エンジニアリングのために LLM をより効果的に導くために、PE2 という名前の新しいメタヒント フレームワークを提案しています。このフレームワークには、パフォーマンスを向上させるための段階的推論テンプレートやコンテキスト仕様などの主要なコンポーネントが含まれています。さらに、著者らはバッチ サイズ、ステップ サイズ、運動量などの一般的な最適化概念からインスピレーションを得て、それらの言語表現をメタキューに導入し、その影響を研究しています。 PE2 は、複数のベンチマークにわたって以前の自動プロンプト エンジニアリング ベースラインを上回り、その多用途性を実証しました。さらに、PE2 は、誤ったヒントや不完全なヒントを有意義に編集し、重要な反事実推論機能を提案することができます。

https://www.miner.cn/pub/65518957939a5f4082a5dbca/?f=cs

12.FinGPT: 小さな言語のための大規模な生成モデル

この文書では、FinGPT: 小規模言語のための大規模生成モデルを紹介します。大規模言語モデル (LLM) は、自然言語処理やその他の多くのタスクで良好に機能しますが、ほとんどのオープン モデルは小規模言語のサポートが非常に限られており、LLM の作業は、事前トレーニング用のデータがほぼ無制限である言語に焦点を当てる傾向があります。 。この記事では、著者らは、世界人口の 0.1% 未満が話している言語の 1 つであるフィンランド語で LLM を作成する際の課題を検討します。著者らは、ウェブクロール、ニュース、ソーシャルメディア、電子書籍を含むフィンランド語コーパスを集めました。著者はモデルの事前トレーニングに 2 つの方法を使用しました: 1) FinGPT と呼ばれる 7 つの単言語モデル (186M ~ 13B パラメーター) を最初からトレーニングしました; 2) 元のトレーニング データとフィンランド語の After pre の混合物で多言語 BLOOM モデルを実行し続けました。 -トレーニングにより、BLUMI と呼ばれる 1,760 億個のパラメータを持つモデルが取得されました。モデルを評価するために、著者らは、BIG-bench のフィンランドのタスク バージョンである FIN-bench を導入しました。著者らは、毒性やバイアスなどの他のモデルの品質も評価しました。著者のモデルとツールは、https://turkunlp.org/gpt3-finnish で公開されています。

https://www.miner.cn/pub/65518945939a5f4082a5d446/?f=cs

13.言語モデルは論理ソルバーになり得る

この論文では、論理的推論への言語モデルの適用を検討します。論理的推論は人間の知性の基本的な側面であり、問​​題解決と意思決定の重要な要素です。最近の技術の進歩により、大規模言語モデル (LLM) が推論機能を発揮できるようになりましたが、複雑な論理推論は依然として課題です。現在の最先端のアプローチは、LLM を使用して自然言語の論理問題を記号表現に解析し、外部ロジック ソルバーを使用して記号表現を入力して答えを出力するというものです。このアプローチはパフォーマンスの点では優れていますが、解析エラーが発生すると外部ロジック ソルバーの実行が失敗し、論理的な質問に答えることができなくなる可能性があります。

この論文で著者らは、LoGiPT と呼ばれる新しい言語モデルを紹介します。これは、ロジック ソルバーの推論プロセスを直接シミュレートし、ソルバーの構文とセマンティクスを厳密に遵守することを学習することで解析エラーを回避します。 LoGiPT は、演繹的ソルバーの暗黙的推論プロセスを明らかにして最適化する、新しく構築された命令調整されたデータセットに基づいて微調整されています。実験結果は、LoGiPT が、ChatGPT や GPT-4 などの競合する LLM と競合する場合でも、2 つの公開演繹推論データセット上で既存のソルバー拡張言語モデルおよび少数ショット ヒント法よりも優れたパフォーマンスを発揮することを示しています。

https://www.miner.cn/pub/65518a79939a5f4082a653a8/?f=cs


終わり

ここに画像の説明を挿入します

AMiner Web サイトのトップページに「Daily Select New Papers」トピックを追加しました。「購読」および「ナレッジベースに追加」をクリックすると、すべての論文情報を入手できます。

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/134396907