科学研究の傾向をリアルタイムで追跡 | Byte と Nankai は、大規模なモデルに基づいてキャラクターの擬人化された人格を生成するオンライン手法を提案、11.14 件の新しい論文を選択

科学研究者は、最新の科学技術の進歩や研究成果を得るために、毎日大量の学術文献を検索・閲覧する必要があります。

しかし、従来の検索および読み取り方法では、科学研究者のニーズを満たすことができなくなりました。

AMiner AI は、検索、読み取り、知識 Q&A を統合した文献知識ツールです。論文の検索と閲覧の効率を迅速に向上させ、その分野の最新の研究動向を入手し、科学研究の作業をより快適にするのに役立ちます。
ここに画像の説明を挿入します

特定の論文について詳しく話し合いたい場合は、論文のリンクをブラウザに直接コピーするか、AMiner AI ページに直接アクセスできます:https: //www.miner.cn/chat/g/explain

2023 年 11 月 14 日に選ばれた新しい論文のリスト:

1.Q-Instruct: マルチモダリティ基礎モデルの低レベル視覚能力の向上

この論文では、マルチモーダル基本モデルの低レベル視覚機能を改善する方法を調査します。 GPT-4V などのマルチモーダル基本モデルは、人間の自然な指示に幅広く対応できる、低レベルの視覚認識と理解タスクに新しいパラダイムをもたらしました。ただし、既存の基本モデルの関連機能はまだ暫定的なものであり、さらに改善する必要があります。これらのモデルを強化するために、著者らは、低レベルの視覚に関する実際の人間のフィードバックを大量に収集する大規模な主観的な実験を実施しました。さらに、基本モデルがさまざまな種類の質問に確実に応答できるようにするために、著者らは、これらの質問をマルチスタイルの 200K コマンドと応答のペアに変換するための GPT を伴う変換を設計しました。実験結果は、Q-Instruct が複数の基本モデルの低レベルの認識と理解を一貫して向上させることができることを示しています。著者らは、彼らのデータセットが将来の汎用インテリジェント知覚、低レベルの視覚的外観の理解、および視覚的品質の評価への道を開く可能性があると期待しています。データセット、モデル動物園、例は https://q-future.github.io/Q-Instruct にあります。

https://www.miner.cn/pub/6552df4a939a5f40823a0044/?f=cs

2.Music ControlNet: 音楽生成のための複数の時変コントロール

この文書では、生成されたオーディオに対して複数の正確な時間変化制御を提供できる拡散ベースの音楽生成モデルである Music ControlNet を紹介します。既存のテキストから音楽への生成モデルと比較して、Music ControlNet は、ビート位置や音楽のダイナミックな変化など、音楽の時間とともに変化する特性を正確に制御するのにより適しています。このモデルは、トレーニング オーディオからコントロールを抽出し、それらをメロディック、ダイナミック、およびリズミカルなコントロールとともに使用してオーディオ スペクトログラムを微調整することにより、生成されたオーディオの時間変化制御を可能にします。さらに、このモデルを使用すると、クリエイターは時間の経過とともにコントロールを部分的にのみ指定して、準拠した音楽を作成できます。実験結果は、Music ControlNet がさまざまなシナリオで入力コントロールと一致する実際の音楽を生成でき、複数の指標において既存の音楽生成モデルを上回るパフォーマンスを示していることを示しています。

https://www.miner.cn/pub/6552e009939a5f40823b5b23/?f=cs

3.ChatAnything: LLM で強化されたペルソナとの Facetime チャット

本稿では、見た目や性格、口調などの人間の特徴を文字だけで表現した仮想キャラクターを生成できるChatAnythingという手法を紹介します。この目標を達成するために、著者らはまず大規模な言語モデルの文脈学習機能を活用し、一連のシステム プロンプトを慎重に設計することでパーソナリティを生成します。次に、彼らは、多様なサウンドと外観を生み出すための 2 つの新しいコンセプト、Mixing of Voices (MoV) と Mixing of Diffusers (MoD) を提案しました。 MoV は、さまざまな事前定義されたトーンを利用し、ユーザーが提供したテキストの説明に基づいて最適なトーンを自動的に選択するテキスト読み上げ (TTS) アルゴリズムを利用して実装されます。 MoD では、最近人気のあるテキストから画像への生成テクノロジーとトーキング ヘッド アルゴリズムを組み合わせて、話すオブジェクトの生成プロセスを簡素化しました。最後に、著者らは、顔のランドマークにピクセルレベルのガイダンスを組み込むことで、現在の生成モデルによって生成された人型オブジェクトが、事前に訓練された顔のランドマーク検出器では検出できないことが多いという問題に取り組んでいます。構築した評価データセットに基づき、顔キーポイント検出の検出率が57.0%から92.5%へと大幅に向上し、生成された音声内容に基づいた自動顔アニメーションが可能になることを検証した。この論文のコードとその他の結果は、https://chatanything.github.io/ でご覧いただけます。

https://www.miner.cn/pub/6552df44939a5f408239f6a8/?f=cs

4. 見ることは信じること: GPT-4V の視覚的命令チューニングの改善を促す

このペーパーでは、きめ細かい視覚的指示データセット LVIS-Instruct4V および GPT-4V でのプロンプトを表示することで、視覚的指示のチューニングを改善する方法について説明します。既存の視覚的命令適応方法は、通常、テキストによる説明を使用して、大規模な言語モデルをガイドして命令に従うデータを生成しますが、これらの説明は画像の注釈から派生することが多く、非常に大雑把な場合があります。さらに、視覚的なコンテキスト全体を観察せずに、指示が視覚的な内容と矛盾する場合さえあります。この問題に対処するために、この論文では、LVIS 内の画像を使って GPT-4V にヒントを与えることによって生成された、視覚的に位置合わせされたコンテキスト認識型の 220K の命令が含まれる、きめ細かい視覚的命令データセット LVIS-Instruct4V を提案しています。この論文は、実験的な検証とケーススタディを通じて、高品質の視覚的指示データが最先端の大規模マルチモーダル モデルのパフォーマンスを大幅に向上させることができることを実証しています。特に、LLaVA-Instruct を LVIS-Instruct4V に置き換えるだけで、最も困難な LMM ベンチマークで LLaVA よりも優れた結果が得られます。この論文はデータとモデルを https://github.com/X2FD/LVIS-INSTRUCT4V で公開しました。

https://www.miner.cn/pub/6552e165939a5f40823de603/?f=cs

5.SPHINX: マルチモーダル大規模言語モデルの重み、タスク、および視覚的埋め込みの共同混合

このペーパーでは、SPHINX と呼ばれるマルチモーダル大規模言語モデル (MLLM) を紹介します。これは、モデルの重みを共同で混合し、タスクと視覚的な埋め込みを調整することで、より強力な視覚言語の調整とマルチタスク機能を実現します。事前トレーニング中に、モデルの過学習を避けるために、著者らは、実世界のデータと合成データを使用してトレーニングされた 2 つの大規模な言語モデルを混合する重み混合戦略を提案しています。 2 つのドメインの重みを直接統合することにより、ハイブリッド大規模言語モデルは多様なセマンティクスを効果的に組み合わせることができ、堅牢性が向上します。

さらに、マルチタスク機能を実現するために、作成者はさまざまなタスクの共同視覚的指示を調整し、タスク間の競合を避けるためにタスク固有の指示を設計します。基本的な視覚的な質問に答えるだけでなく、領域レベルの理解、字幕のグラウンディング、文書レイアウトの検出、人間の姿勢の推定など、さまざまなシーン間の相互強化を実現するためのより困難なタスクも含まれています。さらに、著者らは、言語モデルにより強力な画像表現を提供するために、さまざまなネットワーク アーキテクチャ、事前トレーニング パラダイム、情報の粒度から包括的な視覚的埋め込みを抽出することを提案しています。

提案されたジョイント ハイブリッドに基づいて、SPHINX はさまざまなアプリケーションで優れたマルチモーダル理解機能を発揮します。さらに、著者らは、高解像度画像のきめの細かい外観をより適切にキャプチャすることを目的とした効率的な戦略を提案しています。異なるスケールと高解像度のサブイメージを混合することにより、SPHINX は既存の評価ベンチマークで優れた視覚的解析と推論パフォーマンスを実現します。著者らは、自分たちの研究が将来のMLLM研究における共同ハイブリッド探査にインスピレーションを与えることを期待している。コードは https://github.com/Alpha-VLLM/LLaMA2- Accessories に掲載されています。

https://www.miner.cn/pub/6552e167939a5f40823de91c/?f=cs

6.Story-to-Motion: 長いテキストから無限かつ制御可能なキャラクターアニメーションを合成

この論文では、長いテキストから人間の自然な動きを生成する「Story-to-Motion」と呼ばれる手法が紹介されており、アニメーション、ゲーム、映画業界の状況を変える可能性があります。この新しいタイプのやりがいのあるタスクは、キャラクターが別の場所に移動し、長いテキストの説明に基づいて特定の動きを実行する必要がある場合に発生します。このタスクでは、低レベルの制御 (軌道) と高レベルの制御 (動作セマンティクス) の融合が必要です。これまでのキャラクター制御およびテキストからモーションへの手法は関連する側面をカバーしていましたが、包括的な解決策を達成することは依然として困難です。キャラクター制御メソッドはテキストの説明を処理できませんが、テキストからモーションへの手法には位置の制約がなく、通常は不安定なモーションが生成されます。これらの制限に対処し、入力テキストに合わせて制御可能な無限の長い動きと軌道を生成する新しいシステムを提案します。私たちのシステムは、現代の大規模言語モデルをテキスト駆動型のモーション スケジューラーとして活用し、長いテキストから一連の (テキスト、位置、継続時間) ペアを抽出します。さらに、モーションマッチング、モーションセマンティクス、軌道制約を組み合わせたテキスト駆動のモーション検索スキームを開発します。また、不自然な姿勢やスライディングステップなど、移行動作における一般的な落とし穴に対処するプログレッシブ マスク トランスフォーマーも設計しました。初の包括的な Story-to-Motion ソリューションであることに加えて、当社のシステムは 3 つの異なるサブタスク (軌道追跡、時間的アクションの合成、およびモーションの融合) で評価されており、そのすべてにおいて以前の最先端のモーションを上回るパフォーマンスを達成しています。合成方法。

https://www.miner.cn/pub/6552e10a939a5f40823d3194/?f=cs

7.ワンダーランドの GPT-4V: ゼロショット スマートフォン GUI ナビゲーション用の大規模マルチモーダル モデル

このペーパーでは、ゼロショット スマートフォン GUI ナビゲーション タスク用の GPT-4V に基づく大規模マルチモーダル モデル MM-Navigator を紹介します。 MM-Navigator を使用すると、スマートフォンの画面は人間のユーザーのように対話し、指定された指示を完了するためのフォローアップ アクションを決定できます。この研究では、大規模なマルチモーダル モデル (LMM) がゼロショット GUI ナビゲーションに優れていることがわかりました。特に GPT-4V は、高度な画面解釈、アクション推論、正確なアクション位置特定機能を備えています。

この論文では、まず、収集された iOS 画面データセット上で MM-Navigator のベンチマークを実行します。人間による評価に基づくと、このシステムは、合理的なアクションの記述を生成する精度が 91%、iOS 上でのシングルステップ命令に対する正しいアクションの実行精度が 75% です。さらに、モデルは Android 画面ナビゲーション データセットのサブセットで評価され、ゼロショットの方法で以前の GUI ナビゲーターを上回ります。

このペーパーのベンチマークと詳細な分析は、GUI ナビゲーション タスクに関する将来の研究のための強固な基盤を提供することを目的としています。プロジェクト ページのリンクは https://github.com/zzxslp/MM-Navigator です。

https://www.miner.cn/pub/6552e15d939a5f40823dd6eb/?f=cs

8.GOAT: 何でもやってみよう

本稿では、住宅や倉庫などの導入シナリオで自律的にナビゲーションし、人間のオペレーターが直感的に理解できるタスクをシームレスに実行できる、GOAT (GO to Everything) と呼ばれる汎用ナビゲーション システムを紹介します。 GOAT には 3 つの重要な機能があります。マルチモーダル (カテゴリ ラベル、ターゲット画像、および言語の説明を通じてターゲットを処理できる)、生涯学習 (同じ環境での過去の経験からの利点)、およびプラットフォーム非依存 (次のような環境に迅速に導入できる) です。異なる構造)ロボット上)。モジュラー システム設計とインスタンス対応のセマンティック メモリの増加を通じて、GOAT は同じカテゴリ内の異なるインスタンスを区別して、画像と言語の説明を通じて指定されたターゲット ナビゲーションを実現できます。 90 時間以上の実験比較で、200 以上の異なるオブジェクト インスタンスをカバーする 9 つの異なるファミリーから 675 のターゲットを選択しました。その結果、GOAT の全体的な成功率は 83% であり、これまでの方法やアブレーション実験の 32% よりも優れていることがわかりました。より高い(絶対的な改善)。 GOAT が環境内で経験を積むほど成功率は高くなり、最初のターゲットでの成功率 60% から探索後の 90% まで増加します。さらに、GOAT がグラブアンドプレイスやソーシャル ナビゲーションなどの下流タスクに簡単に適用できることを示します。

https://www.miner.cn/pub/6552de7a939a5f40823994ef/?f=cs

9.MEGAVERSE: 言語、モダリティ、モデル、タスクにわたる大規模言語モデルのベンチマーク

このペーパーでは、複数の言語、モダリティ、モデル、タスクに関する大規模言語モデル (LLM) の評価をカバーする MEGAVERSE ベンチマークを紹介します。近年、LLM の研究が急速に進歩し、自然言語処理 (NLP) タスクに大きな進歩をもたらしました。ただし、ほとんどの研究は英語に焦点を当てており、英語以外の言語での LLM の構築と評価は比較的未開発のままです。 LLM の機能と制限をよりよく理解して評価するために、研究者はいくつかの新しい LLM を導入し、英語以外の言語での評価を必要としました。

この調査は、6 つの新しいデータセットを追加して MEGAVERSE ベンチマークを形成することで、MEGA ベンチマーク スイートを拡張することを目的としています。このベンチマークには、リソースの少ないアフリカ言語を含む 81 言語をカバーする 22 のデータセットが含まれています。研究者らは、GPT-3.5-Turbo、GPT4、PaLM2、Llama2 などのいくつかの最先端の LLM を MEGAVERSE データセットで評価しました。さらに、ベンチマークには 2 つのマルチモーダル データセットが含まれており、LLaVa-v1.5 モデルのパフォーマンスを評価します。

実験結果は、GPT4 と PaLM2 がさまざまなタスク、特に低リソース言語で良好に動作することを示しています。ただし、英語以外の言語で LLM のパフォーマンスを正確に評価するには、データ汚染などの問題に対処する必要があります。

https://www.miner.cn/pub/6552e116939a5f40823d4965/?f=cs

10. 不対データを用いた大規模言語モデルの汎用音声能力の実現に向けて

この論文では、不対データを使用して大規模言語モデルの一般的な音声機能を構築するアプローチを調査します。著者らは、Llama-2 モデルに基づいて、慎重に厳選されたペア データを使用せずに広範な言語モデル機能を維持しながら、エンドツーエンドの一般的な音声処理と推論機能を開発します。このモデルは、テキストの代わりに音声キューを利用し、会話を維持できます。このモデルは、音声質問応答、音声翻訳、音声要約などのタスクを実行する機能など、クロスモーダル機能も拡張します。言語モデルを拡張して限られた数の事前に指定されたタスクを処理する以前の音声アプローチとは異なります。実験結果は、応答プロンプトのモデリングにおいて、エンドツーエンドのアプローチがカスケード システム (音声認識装置 + 言語モデル) と同等かそれ以上であることを示しています。さらに、カスケードとは異なり、私たちのアプローチはテキストとオーディオのモダリティを交換し、セッション内の以前のコンテキストを活用してより良い結果を提供できます。

https://www.miner.cn/pub/6552df37939a5f408239e3c1/?f=cs

11.Cappy: 小さなスコアラーで大規模なマルチタスク LM を上回り、向上させる

このペーパーでは、大規模なマルチタスク言語モデル (LLM) のパフォーマンスと効率を向上させるために、Cappy と呼ばれる小さな事前トレーニング済みスコアラーを紹介します。 T0、FLAN、OPT-IML などの既存の LLM は、パラダイムに従う統一命令の下で良好に機能し、優れた汎化機能を備えていますが、大量のコンピューティング リソースを必要とするため、トレーニングと推論が高価で非効率的になります。さらに、これらのモデルを下流のアプリケーション、特に複雑なタスクに適応させることは、ハードウェア要件の広範な微調整が必​​要なため、パラメータ効率の高いプロンプト調整方法を使用しても実現できないことがよくあります。さらに、OPT-IML-175B や FLAN-PaLM-540B などの最も強力なマルチタスク LLM は一般にアクセスできず、カスタマイズの可能性が大幅に制限されています。これらの課題に対処するために、著者らは、マルチタスク LLM のパフォーマンスと効率を向上させるように設計された事前トレーニング済みの小型スコアラーである Cappy を紹介します。 Cappy のパラメータはわずか 3 億 6,000 万個で、分類タスクで LLM から独立して実行することも、LLM の補助コンポーネントとして使用してパフォーマンスを向上させることもできます。さらに、Cappy は、LLM の微調整やパラメータへのアクセスを必要とせずに、ダウンストリーム監視を効率的に統合できます。実験結果は、PromptSource の 11 の言語理解タスクにおいて、Cappy が数桁大きい LLM よりも優れたパフォーマンスを示していることを示しています。 BIG-Bench の 45 の複雑なタスクにおいて、Cappy は高度なマルチタスク LLM FLAN-T5 のパフォーマンスを大幅に向上させました。さらに、Cappy は、微調整やコンテキスト学習などの他の LLM 適応技術と柔軟に併用して、さらなるパフォーマンスの向上を実現できます。

https://www.miner.cn/pub/654cdfe0939a5f40825017c1/?f=cs

12.大規模言語モデルにおける信頼できるソースの調整

この論文では、信頼性が異なる情報源からの矛盾する事実情報を扱う際の大規模言語モデル (LLM) の問題を調査します。著者らは、不確実性や論争に直面したときに、信頼できる発行者が作成したコンテンツとモデルが一致する傾向を測定する、「信頼できるソース アライメント (TSA)」と呼ばれる LLM プロパティを提案しています。彼らは、ファクトチェック記事に基づいた TSA 評価データセットである FactCheckQA を構築し、応答抽出、クレームの文脈化、プロンプト策定におけるバイアスにおける詳細な設計上の考慮事項を含む、TSA を評価するためのシンプルなプロトコルを提案しました。このプロトコルを PaLM-2 に適用したところ、モデルの規模が大きくなるにつれて、FactCheckQA でのモデルのパフォーマンスがほぼランダムから最大 80% のバランスのとれた精度まで向上し、信頼できる情報源と一致することが著者らは発見しました。

https://www.miner.cn/pub/6552df11939a5f408239d4a9/?f=cs

13.LayoutPrompter: 大規模言語モデルの設計能力を目覚めさせる

このペーパーでは、コンテキスト学習を通じて大規模言語モデル (LLM) を活用し、既存の条件付きグラフ レイアウト生成方法の汎用性とデータ効率の問題に対処する、LayoutPrompter と呼ばれるアプローチを紹介します。 LayoutPrompter は、入出力のシリアル化、動的なサンプル選択、レイアウトのランキングという 3 つの主要なコンポーネントで構成されます。実験結果によると、LayoutPrompter メソッドの単純さにも関わらず、LayoutPrompter は、モデルのトレーニングや微調整を行わずに、4 つのパブリック データセット上のすべての既存のレイアウト生成タスクにおいて、最先端のレイアウト生成メソッドと競合、またはそれを上回るパフォーマンスを発揮できることが示されています。さらに、アブレーション研究では、データ量が少ない場合、LayoutPrompter がベースラインのトレーニングに大きな利点があることも示しており、LayoutPrompter のデータ効率がさらに証明されています。

https://www.miner.cn/pub/654d9346939a5f4082587024/?f=cs

14.Model-as-a-Service (MaaS): 調査

このペーパーでは、Model-as-a-Service (MaaS) に関する包括的な調査を提供します。事前トレーニングされたモデル内のパラメーターとデータの数が一定のレベルを超えると、基本モデル (大規模な言語モデルなど) が下流のタスクのパフォーマンスを大幅に向上させ、以前には存在しなかったいくつかの新たな特別な機能 (深層学習、複雑な推論と人間の調整)。基礎となるモデルは生成人工知能 (GenAI) の一種であり、Models as a Service (MaaS) は生成 AI モデルの展開と利用方法を変える画期的なパラダイムです。 MaaS は AI テクノロジーの使用におけるパラダイム シフトを表しており、広範なインフラストラクチャやモデル トレーニングの専門知識を必要とせずに、事前トレーニングされた AI モデルを活用するためのスケーラブルでアクセス可能なソリューションを開発者とユーザーに提供します。この記事では、MaaS の意義やさまざまな業界への影響など、MaaS についての包括的な概要を提供することを目的としています。クラウドコンピューティングをベースとした「X-as-a-Service」の開発の歴史を簡単に振り返り、MaaSの主要テクノロジーを紹介しました。また、MaaS に関する最近の応用研​​究もレビューします。最後に、この有望な分野におけるいくつかの課題と将来の課題に焦点を当てます。 MaaS は、さまざまな AI モデルに適した新しい導入およびサービス パラダイムです。このレビューが MaaS 分野における将来の研究に刺激を与えることを願っています。

https://www.miner.cn/pub/655189a6939a5f4082a5fd0d/?f=cs

Supongo que te gusta

Origin blog.csdn.net/AI_Conf/article/details/134416371
Recomendado
Clasificación