LLM Paper Weekly | 清華大学、北京大学、メタ AI などの最先端の論文を調査

Large Model (LLM) は、人間の言語を理解して生成するように設計された人工知能モデルです。彼らは大量のテキスト データでトレーニングされており、テキストの要約、翻訳、感情分析などを含む幅広いタスクを実行できます。LLM は、数十億のパラメータを含む大規模な点が特徴で、言語データの複雑なパターンを学習するのに役立ちます。これらのモデルは多くの場合、トランスフォーマーなどの深層学習アーキテクチャに基づいており、さまざまな NLP タスクで優れたパフォーマンスを達成するのに役立ちます。

2022 年末、OpenAI は GPT-3.5 に基づく大規模言語モデルである ChatGPT を発表し、その優れたパフォーマンスにより、ChatGPT とその背後にある大規模言語モデルはすぐに人工知能の分野で話題となりました。多くの科学研究者や開発者の注目を集めています。

今週は、Meta AI、北京大学、清華大学などの機関から、LLM の分野で優れた論文 10 件を選出しました。

1.生成AIのための強化学習: 調査

現在、生成モデルのトレーニングに主に使用されているパラダイムは、最尤推定です。これは、モデルの分布とターゲットの分布の差を減らすことによって、ターゲットのデータの分布を取得して近似します。このアプローチは生成タスクの目標をうまく確立できますが、生成モデルに対するすべてのユーザー要件を満たすことはできません。強化学習は、新しい目標を作成することによって新しいトレーニング信号を注入する競争力のある代替手段として、人間の帰納的好みを複数の観点 (敵対的学習、手動で設計されたルール、学習報酬モデルなど) から活用して、能力と柔軟性を構築する能力を実証します。ハイパフォーマンスモデルの。したがって、強化学習は研究のホットスポットとなり、モデルの設計と応用の面で生成人工知能の境界を拡大しました。この記事では、この分野における近年の進歩を要約した包括的なレビューを紹介します。さまざまなアプリケーション分野に関する最近の調査レポートがいくつかありますが、この記事の目的は、複数のアプリケーション分野の概要を提供することです。当社は、さまざまなモデルやアプリケーションを適切にカバーする、この分野における厳密な分類法を提供します。特に、大規模言語モデルの急速に成長している分野も調査しています。この記事は、現在のモデルの限界に対処し、生成 AI の境界を拡大する可能性のある潜在的な方向性を示すことで締めくくられています。

リンク: https://www.miner.cn/pub/64ed716d3fda6d7f0658aa83

2. Nougat: 学術文書の神経光学的理解

この記事では、科学知識は主に書籍や科学雑誌に保存されており、多くの場合 PDF の形式で保存されていると説明しています。ただし、PDF 形式では、特に数式の意味情報が失われます。この問題を解決するために、著者らは、科学文書の光学式文字認識 (OCR) 処理を実行してマークアップ言語に変換できる、Nougat と呼ばれるビジュアル Transformer モデルを提案します。著者らは、科学文書の新しいデータセットに対するモデルの有効性を実証することで、このアプローチがデジタル時代における科学知識のアクセシビリティを向上させ、人間が読める文書と機械が読める文書の間のギャップを埋めるための有望なソリューションを提供することを示しています。文章。著者らは、科学的テキスト認識における将来の研究を加速するために、モデルとコードをリリースしました。

リンク: https://www.miner.cn/pub/64ec1b7e3fda6d7f06270245

3. 命令GPT-4: MiniGPT-4を微調整するための200命令パラダイム

これらのモデルは、画像とテキストのペアの事前トレーニングと視覚言語指示データの微調整という 2 段階のトレーニング プロセスを通じて、指示に従う能力を獲得します。最近の研究では、大規模な言語モデルは、データに続く高品質な命令の数が限られている場合でも、満足のいく結果を達成できることが示されています。このペーパーでは、200 個のサンプルで構成される小規模なデータセット上でのみ微調整された struct GPT-4 を紹介します。これは、MiniGPT-4 で調整されたデータセットで使用される命令後のデータの約 6% に相当します。著者らはまず、マルチモーダルな命令データの品質を評価するためのいくつかの指標を提案します。これらの指標に基づいて、彼らは、低品質の視覚言語データを自動的に識別してフィルタリングできる、シンプルかつ効果的なデータ セレクターを提案しています。このアプローチを採用することで、struct GPT-4 はさまざまな評価 (視覚的な質問応答、GPT-4 の優先度など) においてオリジナルの MiniGPT-4 よりも優れています。全体として、結果は、小さいながらも高品質の命令微調整データにより、マルチモーダル大規模言語モデルがより良い出力を生成できるように効果的にできることを示しています。

リンク: https://www.miner.cn/pub/64e6d5bd3fda6d7f0652c7f8

4. 大規模なグラフ モデル: 展望

この論文は、人工知能と機械学習の分野では大規模なモデルが大きな進歩を遂げているが、グラフィックスの分野、特に自然言語処理やコンピュータビジョンなどの他の分野では、大規模なモデルはまだ同じ成果を上げていないことを指摘しています。成功。大規模なグラフィカル モデルの導入を促進するために、このホワイト ペーパーでは、大規模なグラフィカル モデルの開発における課題と機会について論じた展望レポートを紹介します。まず、この論文では大規模なグラフィカル モデルの望ましい特性について説明します。次に、表現ベース、グラフィック データ、グラフィック モデルという 3 つの重要な観点から詳細に説明します。各カテゴリ内で、この文書では最近の進歩を簡単に紹介し、残された課題と当社の見通しを強調しています。最後に、この論文では大規模なグラフィカル モデルの有益なアプリケーションについて説明します。この論文は、この展望論文が大規模なグラフィカル モデルのさらなる探索を促進し、最終的に汎用人工知能 (AGI) に一歩近づくことができると考えています。

リンク: https://www.miner.cn/pub/64ed716d3fda6d7f0658ab4a

5. コンピュータービジョンのための計算効率の高いディープラーニング: 調査

深層学習モデルはコンピューター ビジョン タスクにおいて大きな進歩を示していますが、それに必要なコンピューティング リソースも増加しており、現実世界のアプリケーションにいくつかの課題をもたらしています。既存の高度なモデルは多くの場合、大量のコンピューティング リソースを必要とするため、現実世界のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量が発生する可能性があります。推論時の計算コストを最小限に抑えるために、コンピューター ビジョンの分野では、計算効率の高いディープ ラーニングに焦点が当てられ始めています。この要約で提供されるレビューでは、この急速に成長している分野の広範な分析が提供されており、次の 4 つの主な側面をカバーしています: 1) 識別深い表現を効率的に抽出するための静的または動的な軽量バックボーン モデルの開発、2) 特定の目的のために設計された特殊なネットワーク構造またはアルゴリズム1) コンピューター ビジョン タスク、3) 深層学習モデルを圧縮する技術、4) ハードウェア プラットフォーム上で効率的な深層ネットワークを展開する戦略。さらに、この要約では、ネットワーク アーキテクチャの設計、トレーニング スキーム、実用的な効率およびより現実的なモデル圧縮方法など、この分野が直面している主要な課題と、将来の研究の方向性について体系的に説明しています。

リンク: https://www.miner.cn/pub/64ed716d3fda6d7f0658a92f

6. LM-Infinite: 大規模な言語モデルに対する単純なオンザフライ長さの一般化

この論文は、大規模言語モデルに基づく自律エージェントの研究の概要です。これまでの研究では、限られた知識を備えた孤立した環境でエージェントをトレーニングすることに焦点を当てていることが多く、これは人間の学習プロセスとは程遠いため、エージェントが人間のような意思決定を達成することが困難でした。近年、大規模言語モデル (LLM) は、大量のネットワーク知識を取得することで人間レベルの知能を実現する大きな可能性を示しています。これをきっかけに、LLM に基づく自律エージェントの研究が急増しました。LLM の可能性を最大限に活用するために、研究者はさまざまなアプリケーション向けにさまざまなエージェント アーキテクチャを設計しました。この論文では、これらの研究全体を体系的にレビューします。具体的には、LLM ベースのエージェントの構築に焦点を当て、これまでの研究のほとんどをカバーする統一フレームワークを提案します。さらに、社会科学、自然科学、工学の分野における LLM ベースの人工知能エージェントのさまざまなアプリケーションの概要を提供します。最後に、LLM ベースの人工知能エージェントを評価するための一般的な戦略について説明します。また、先行研究に基づいて、この分野におけるいくつかの課題と将来の方向性を提案します。

リンク: https://www.miner.cn/pub/64f00ff53fda6d7f06eced18

7.LLaSM: 大規模な言語および音声モデル

現在の研究のほとんどは、視覚と言語による指示を理解して実行する強力な機能を備えた視覚と言語のマルチモーダル モデルに焦点を当てています。しかし、著者らは、音声は人間が世界と対話する重要な方法でもあるため、ユニバーサルアシスタントがマルチモーダルな音声言語の指示を理解し、従うことができることが重要であると主張しています。この目的のために、著者らは大規模言語音声モデル (LLaSM) を提案します。LLaSM は、クロスモーダル会話機能と、音声と言語の指示に従う機能を備えた、エンドツーエンドでトレーニングされた大規模なマルチモーダル音声言語モデルです。初期の実験では、LLaSM が人間にとって人工知能と対話するためのより便利で自然な方法を実証していることが示されています。さらに、著者は大規模な音声命令データセット LLaSM-Audio-structs もリリースしました。

リンク: https://www.miner.cn/pub/64f00ff43fda6d7f06ecec49

8.テキストからビデオへの生成のためのデュアルストリーム拡散ネット

テキストからビデオへの生成の分野には重要なボトルネックがあります。つまり、生成されたビデオには、ちらつきやアーティファクトが含まれることがよくあります。著者らは、生成されたビデオ内のコンテンツ変更の一貫性を向上させるために、デュアルストリーム拡散ネットワーク (DSDN) を提案しています。この方法は、ビデオ コンテンツと動的ブランチという 2 つの拡散ストリームをプライベート スペースで個別に実行してパーソナライズされたビデオ変更とコンテンツを生成するように設計し、コンテンツと動的ドメインの間で作成者が設計したクロスコンバータ インタラクション モジュールを利用することによって機能します。これにより、生成されたビデオの滑らかさが向上します。さらに、ビデオ モーションの操作を容易にするモーション デコンポーザーとコンバイナーも紹介します。定性的および定量的実験により、この方法によりちらつきの少ない見事な連続ビデオを生成できることが示されました。したがって、この要約では、生成されたビデオのちらつきとアーティファクトの問題を説明し、2 ストリーム拡散ネットワークによる解決策を提案しています。

リンク: https://www.miner.cn/pub/64dd9b053fda6d7f0622e793

9. LLM にパーソナライズを教える – ライティング教育にヒントを得たアプローチ

この論文では、パーソナライズされたテキスト生成の問題を解決するための新しい方法を提案しています。現在、この分野の研究は主に、カスタマイズされた機能やモデルを設計することによって、ドメイン固有のパーソナライズされたテキスト生成の問題を解決することに焦点を当てています。ただし、この論文で提案されている方法は、パーソナライズされた生成のための大規模言語モデル (LLM) を教えるための多段階およびマルチタスクのフレームワークを開発することによるライティング教育の実践に基づいています。このフレームワークは、パーソナライズされたテキスト生成タスクを、検索、ランキング、要約、合成、生成などの複数の段階に分解します。同時に、この方法では、モデルの生成能力をさらに向上させるためのマルチタスク設定も導入されています。これは、生徒の読解能力と書く能力は通常関連しているという教育的観察に基づいています。3 つの公開データセットで評価された結果は、提案された方法がさまざまなベースライン方法と比較して、パーソナライズされたテキストの生成において大幅な改善を達成していることを示しています。

リンク: https://www.miner.cn/pub/64dd9b053fda6d7f0622e61f

10. OmniQuant: 大規模言語モデル向けの全方向的にキャリブレーションされた量子化

最近のポストトレーニング量子化 (PTQ) 手法は、メモリ フットプリントを削減し、LLM の計算効率を向上させることができますが、量子化パラメータを手作業で設計するため、パフォーマンスが低下し、極度に低ビットの量子化を処理できません。この問題を解決するために、著者らは全方向校正量子化 (OmniQuant) と呼ばれるテクノロジーを導入しました。これは、PTQ の計算効率を維持しながら、さまざまな量子化パラメーターを効果的に最適化することで、さまざまな量子化設定の下で良好なパフォーマンスを実現します。

リンク: https://www.miner.cn/pub/64ec1b763fda6d7f0626f449

チャットペーパーの使い方は?

ChatPaperの利用方法は非常に簡単で、AMinerのホームページを開き、ページ上部または右下のナビゲーションバーからChatPaperのページに入ります。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/132691765