LLM Weekly Paper|Google、Huawei、スタンフォード大学、香港大学などのフロンティア論文研究

ラージ モデル (LLM) は、人間の言語を理解して生成するように設計された人工知能モデルです。彼らは大量のテキスト データでトレーニングされており、テキストの要約、翻訳、感情分析などを含む幅広いタスクを実行できます。LLM は、言語データの複雑なパターンを学習するのに役立つ数十億のパラメータを含む大規模な点が特徴です。これらのモデルは多くの場合、Transformers などの深層学習アーキテクチャに基づいており、さまざまな NLP タスクで優れたパフォーマンスを達成するのに役立ちます。

2022 年末、OpenAI は GPT-3.5 に基づく大規模言語モデルである ChatGPT を発表し、その優れたパフォーマンスにより、ChatGPT とその背後にある大規模言語モデルはすぐに人工知能の分野で話題となりました。研究者や開発者の注目を集めています。

今週は、Google、Huawei、スタンフォード大学、香港大学などの機関から、LLM 分野の優れた論文 10 件が選出されました。

読みやすさを考慮し、論文タイトル、著者、ChatPaper概要などの情報のみを記載していますが、興味のある方はリンクをクリックすると原文が表示され、PC側のデータ同期が可能です(コレクションはPCでも閲覧可能です)サイド)、毎日の新しい新聞も小さなページにログインできます。プログラムビュー。

ChatPaper入口: https: //www.miner.cn/chat/g

1. CAME: Confidence-guided Adaptive Memory Efficient Optimization の 論文詳細ページ

著者: Yang Luo、Xiaozhe Ren、Zangwei Zheng、Zhuo Jiang、Xin Jiang、Yang You

リンク: https://www.miner.cn/pub/64a63bddd68f896efaec6604/?f=cs

ChatPaper レビュー: この論文では、Adam や LAMB などの適応勾配法は、大規模な言語モデルをトレーニングする場合に非常に優れたパフォーマンスを示しますが、パラメーター勾配ごとに 2 次モーメント推定を維持する必要があり、追加のメモリ オーバーヘッドが必要であることについて説明しています。この問題に対処するために、この論文では、信頼できるガイダンスに基づいた適応型メモリ効率の高いオプティマイザーである CAME を提案しています。CAME は、信頼性の高いガイダンス戦略を使用することで、既存のメモリ効率の高いオプティマイザーの不安定性を軽減します。この戦略に基づいて、CAME は 2 つの目標を同時に達成します。1 つは従来の適応手法のような高速収束、もう 1 つはメモリ効率の高い手法のような低メモリ使用量です。広範な実験結果は、CAME が安定しており、さまざまな自然言語処理タスク、特に BERT 事前トレーニングのバッチ サイズ 32,768 という大きなバッチサイズで良好に動作することを示しています。Adam オプティマイザーと比較して、提案手法はより高速な収束とより高い精度を実現します。CAME の実装は公開されています。

2.BiPhone: テキストにおける言語間の音声影響のモデリングに関する 論文の詳細ページ

作说:アビルート・グプタ、アナンヤ・B・サイ、リチャード・スプロート、ユーリ・ヴァシレフスキー、ジェームズ・S・レン、アンバリッシュ・ジャシュ、スクディープ・S・ソディ、アラヴィンダン・ラグヴィール

リンク: https://www.miner.cn/pub/64ab82833fda6d7f06f77db1/?f=cs

ChatPaper レビュー: この論文では、技術的な非対称性などの理由により、多くの人が不慣れな第 2 言語 (L2) でインターネット上でコミュニケーションすることを余儀なくされており、そのため L2 テキストには多くのエラーが含まれることが多く、母語(L1)の影響を受けます。この論文では、L1 と L2 の間の音声の混乱 (つまり、L1 のリスナーが混乱する可能性のある L2 の音声) をマイニングし、これらの混乱を生成モデル (Bi-Phone) に注入して、L2 テキストの障害を合成的に生成する方法を提案しています。この論文は、人による評価を通じて、Bi-Phone が異なる L1 間で変化するもっともらしい破損を生成する可能性があり、この破損が Web 上で広範囲に及ぶことを示しています。さらに、この論文では、この破損手法を一般的な言語理解ベンチマークである SuperGLUE に適用することにより、この方法では SoTA 言語理解モデルのパフォーマンスが低下することも判明しました。さらに、この論文では、バイト モデルが SuperGLUE に近いパフォーマンスを回復するのに役立つ、新しい音声予測事前トレーニング タスクも紹介されています。最後に、この論文では、話し言葉の堅牢な言語モデルのさらなる研究を促進するために、FunGLUE と呼ばれるベンチマークもリリースしています。

3. VoxPoser: 言語モデルを使用したロボット操作のための構成可能な 3D 値マップの 論文詳細ページ

著者: Wenlong Huang、Chen Wang、Ruohan Zhang、Yunzhu Li、Jiajun Wu、Li Fei-Fei

リンク: https://www.miner.cn/pub/64abee0f286e8b4b6fcd5c84/?f=cs

ChatPaper レビュー: この論文は、大規模言語モデル (LLM) を使用して、ロボット操作のための多数の異なるタスクの動的なロボットの軌道を合成することを目的としています。これ以前は、ほとんどのロボット操作研究は事前に定義された移動パターンに依存しており、ロボットのインタラクティブ機能が大幅に制限されていました。この論文では、LMM の推論機能とコードを記述する機能を活用し、ビジュアル言語モデル (VLM) と対話して 3D 値マップを生成し、それらをモデルベースの計画フレームワークで使用して、ゼロの閉ループを合成する方法を提案しています。動的な摂動に対して堅牢でありながら、ロボットの軌道を撮影します。このフレームワークは、オンライン エクスペリエンスを活用して、豊富なシーンに公開される動的モデルを効率的に学習します。この方法は、シミュレートされたロボット環境と実際のロボット環境で大規模に研究されており、フリーテキストの説明で指定された 30 を超える日常的なロボット操作タスクを実行できることが実証されています。

4. PolyLM: オープンソースの多言語大規模言語モデルの 論文詳細ページ

著者: Xiangpeng Wei、Haoran Wei、Huan Lin、Tianhao Li、Pei Zhang、Xingzhang Ren、Mei Li、Yu Wan、Zhiwei Cao、Binbin Xie、Tianxiang Hu、Shangjie Li、Binyuan Hui、Bowen Yu、Dayiheng Liu、Baosong Yang、フェイ・ファン、ジュン・シー

リンク: https://www.miner.cn/pub/64af76ed3fda6d7f0647132f/?f=cs

ChatPaper レビュー: この論文では、PolyLM と呼ばれるオープンソースの多言語大規模言語モデルを紹介します。PolyLM は、バイリンガル データを融合し、カリキュラム学習戦略を採用することで多言語能力を向上させ、トレーニング データにバイリンガル データを組み込みます。さらに、モデル微調整のための 132,700 の多様な多言語命令を自動的に生成できる、多言語セルフガイド法が提案されています。この論文では、広範な実験を通じて、PolyLM が多言語タスクで優れたパフォーマンスを発揮し、英語では既存のオープンソース モデル LLaMA および BLOOM と同等のパフォーマンスを発揮することを示しています。

5. 小型トランスフォーマーへの算術教育に関する論文の詳細ページ

作说:Nayoung Lee、Kartik Sreenivasan、Jason D. Lee、Kangwook Lee、Dimitris Papailiopoulos

リンク: https://www.miner.cn/pub/64ab82833fda6d7f06f77dee/?f=cs

ChatPaper レビュー: この論文では、小さな Transformer モデルに基本的な算術演算を教える方法を研究しています。大量のテキスト データでトレーニングされた小さな Transformer モデルは、ランダムな初期化から始めて加算、乗算、基本的な平方根関数などの算術演算を効率的に学習できることがわかりました。まず、従来のトレーニング データが算術学習にとって最も効率的ではないこと、および単純なデータ形式の変更により精度が大幅に向上する可能性があることを示します。トレーニング データが増大するにつれて、顕著な位相シフトが発生します。これは、低ランクの行列充填に関連するリンクによって説明できます。これに基づいて、中間ステップ結果を含む連鎖アイデア データをトレーニングに使用します。事前トレーニングがなくても、このアプローチにより、精度、サンプルの複雑さ、収束速度を同時に大幅に向上させることができます。また、算術データとテキスト データの間の相互作用を調査し、少数のヒント、事前トレーニング、モデル サイズの影響を調べます。さらに、長さの一般化の課題についても説明します。私たちの研究は、算術能力を迅速に引き出すために、次のトークンの予測ターゲットの特殊な性質を考慮する必要がある、高品質のガイド付きデータの重要性を強調しています。

6. Lost in the Middle: How Language Models Use Long Contexts 論文詳細ページ

出演者: ネルソン・F・リュー、ケビン・リン、ジョン・ヒューイット、アシュウィン・パランジャペ、ミシェル・ベヴィラクア、ファビオ・ペトローニ、パーシー・リャン

リンク: https://www.miner.cn/pub/64a78f1fd68f896efa01eb25/?f=cs

ChatPaper レビュー: この論文では、言語モデルが長いコンテキストをどのように使用するかを研究しています。近年、長いコンテキストを処理できる言語モデルがいくつか登場しましたが、言語モデルが長いコンテキストで情報をどのように使用するかについてはあまり知られていません。このペーパーでは、入力コンテキストから関連情報を特定する必要がある 2 つのタスク、複数ドキュメントの質問応答とキー値の検索を分析します。言語モデルは、入力コンテキストの最初または最後で情報を取得するときに最もよく機能する傾向があるのに対し、長いコンテキストの途中で情報を取得するとパフォーマンスが大幅に低下する可能性があることがわかりました。さらに、長いコンテキスト モデルの場合、入力コンテキストの長さが増加すると、パフォーマンスが大幅に低下します。この論文の分析は、言語モデルが入力コンテキストをどのように採用するかについて新たな洞察を提供し、将来のロングコンテキスト モデルに新しい評価基準を提供します。

7.VideoGLUE: 基礎モデルのビデオ一般理解評価の 論文詳細ページ

著者: Liangzhe Yuan、Nitesh Bharadwaj Gundavarapu、Long Zhao、Hao Zhou、ying Cui、Lu Jiang、Xuan Yang、Menglin Jia、Tobias Weyand、Luke Friedman、Mikhail Sirotenko、Huisheng Wang、Florian Schroff、Hartwig Adam、Ming-Hsuan Yang、ティン・リウ、ボーチン・ゴン

リンク: https://www.miner.cn/pub/64a78f1fd68f896efa01eb1f/?f=cs

ChatPaper レビュー: この論文では、3 つのランドマーク タスク (動作認識、時間的位置決め、時空間的位置決め) を含む、よく設計された実験プロトコルを使用して、ビデオ理解における既存の基盤モデルの能力を評価します。そのうち 8 つはコミュニティ データセットによって歓迎されています。下流タスク用に基礎モデルを調整する 4 つの方法。さらに、一般的なビデオ理解タスクにおける基礎モデルの有効性と効率を測定するための指標 VideoGLUE スコア (VGS) も提案します。私たちの結果は、タスク特化モデルが私たちが研究した 6 つの基礎モデルよりも大幅に優れていることを示しています。これは、自然言語や画像理解における基礎モデルの成果とはまったく異なります。さらに、ビデオ ネイティブ基盤モデル (事前トレーニングされたデータにビデオ パターンが含まれている) は、一般に、動きの多いビデオの分類、アクションの時間的位置特定、および複数のアクションを含むビデオの理解において、イメージ ネイティブ基盤モデルよりも優れたパフォーマンスを発揮します。3 番目の発見は、ビデオ タスクの場合、ビデオ ネイティブの基礎モデルは、下流のタスク (基礎モデルのバックボーンのフリーズなど) に軽く適応させた場合に良好なパフォーマンスを発揮するのに対し、イメージ ネイティブの基礎モデルは、完全にエンドツーエンドで適切に調整した場合にパフォーマンスが向上することを示しています。 -調整しました。最初の 2 つの観察は、ビデオ フォーカスのための基礎モデルの研究に焦点を当てる必要があることを示しており、最後の観察は、基礎モデルの評価にはタスクと適応方法が重要であることを示しています。

8. Focused Transformer: Contrastive Training for Context Scaling 論文の詳細ページ

著者:シモン・トウォコフスキ、コンラッド・スタニシェフスキー、ミコワイ・パチェク、ユフアイ・ウー、ヘンリク・ミハレフスキ、ピョートル・ミウォシュ

リンク: https://www.miner.cn/pub/64a78f1fd68f896efa01eb23/?f=cs

ChatPaper のレビュー: この論文は、外部メモリの記憶内容が (キー、値) で構成される、対比トレーニングによって外部メモリの記憶力低下の問題を解決する方法を研究しています。ドキュメントの数が増えると、関連するキーの数が減り、モデルはキー以外の部分に重点を置くようになります。この状況は干渉問題と呼ばれます。この問題を解決するために、著者らは、対比トレーニングを利用して (キー、値) 空間の構造を強化し、それによってコンテキストの長さを延長する Focused Transformer (FoT) 手法を提案します。著者らはまた、FoT 技術を使用して既存の大規模言語モデルを微調整することで、その効果的なコンテキストを拡張できることも示しています。経験的結果は、FoT 技術を使用した LongLLaMA モデルが、パスワード検索などの長いコンテキストを必要とするタスクで進歩を達成することを示しています。また、LongLLaMA モデルは、以前は処理が困難であった 25 万 6,000 個のコンテキスト長を効率的に処理できることも実証されています。

9. GPT4RoI: 関心領域に関する大規模言語モデルの命令チューニングの論文 詳細ページ

著者: Shilong Zhang、Peize Sun、Shoufa Chen、Min Xiao、Wenqi Shao、Wenwei Zhang、Kai Chen、Ping Luo

リンク: https://www.miner.cn/pub/64ab828f3fda6d7f06f78840/?f=cs

ChatPaper レビュー: この論文では、より正確なマルチモーダルな理解を目的として、地域の命令を使用して大規模言語モデル (LLM) を微調整する GPT4RoI と呼ばれる新しい方法を提案しています。従来の画像からテキストへの指導トレーニング方法では、画像レベルの視覚と言語の整合性を確立することしかできず、領域レベルの整合性が欠けているため、きめの細かいマルチモーダルな理解の進歩が制限されます。この論文では、著者は領域命令ファインチューニングと呼ばれる方法を提案します。これは、領域命令を使用してバウンディングボックスを空間命令形式の命令に変換するものです。次に、地域命令と言語埋め込みのインターリーブされたシーケンスが入力として LLM に供給され、命令微調整形式に変換された地域テキスト データでトレーニングされます。GPT4RoI 領域レベルの視覚言語モデルの提案は、画像レベルの理解能力を超えた新しい対話とインタラクティブな体験を提供します。(1) 制御性: ユーザーは言語と地域の指示の 2 つの方法でモデルを操作し、問題の詳細レベルを柔軟に調整できます。(2) 機能: このモデルは、単一リージョンのリージョン コマンドだけでなく、マルチリージョンのリージョン コマンドもサポートし、詳細なリージョン タイトルや複雑なリージョン推論など、よりリージョン レベルのマルチモーダル機能を解放します。(3) 構成性: 既製のオブジェクト検出器は、色、形状、材質、動き、他のオブジェクトとの関連性など、モデルから有用なオブジェクトのプロパティをマイニングするための領域指示プロバイダーとして使用できます。

10. マルチモダリティにおける生成的事前トレーニングに関する 論文の詳細ページ

著者: Quan Sun、Qiying Yu、Yufeng Cui、Fan Zhang、Xiaosong Zhang、Yueze Wang、Hongcheng Gao、Jingjing Liu、Tiejun Huang、Xinlong Wang

リンク: https://www.miner.cn/pub/64ae259c3fda6d7f0658f3b5/?f=cs

ChatPaper レビュー: この文書では、マルチモーダル コンテキストで画像とテキストをシームレスに生成できる Transformer ベースの多機能基本モデルである Emu を紹介します。このモデルは、任意のシングルモーダルまたはマルチモーダル入力 (交互の画像、テキスト、ビデオなど) を受け入れることができる雑食性モデルであり、一般的な自動回帰トレーニング手順を通じて 1 対 1 でトレーニングされます。まず、視覚信号が埋め込みとしてエンコードされ、テキスト トークンとともに交互の入力シーケンスを形成します。次に、Emu は、次のテキスト トークンを予測するか、マルチモーダル シーケンス全体にわたる次のビジュアル埋め込みを回帰するという統一された目的で分類します。この多用途のマルチモダリティにより、モデルは、ビデオのフレームとテキストの交互シーケンス、Web ページ上の画像とテキストの交互シーケンス、画像とテキストの大規模なペアなど、大規模な事前トレーニング データの複数のソースを探索できます。ビデオとテキストのペア。Emu は、画像からテキストへのタスクとテキストから画像へのタスクをサポートし、コンテキスト内の画像とテキストの生成を可能にする、多用途のマルチモーダル インターフェイスとして機能します。画像キャプション、視覚的な質問応答、ビデオ質問応答、テキストから画像への生成タスクなど、幅広いゼロショットまたは数ショットのタスクで、Emu は最先端の大規模マルチモーダル上で優れたパフォーマンスを発揮します。モデル。さらに、Emu は、命令の微調整によるマルチモーダル アシスタントの実装など、優れたスケーラビリティ機能も示しています。


チャットペーパーの使い方は?

ChatPaperの利用方法は非常に簡単で、AMinerのホームページを開き、ページ上部または右下のナビゲーションバーからChatPaperのページに入ります。
ここに画像の説明を挿入

ChatPaper ページでは、単一のドキュメントに基づいてダイアログを行うか、ライブラリ全体 (個人ライブラリ) に基づいてダイアログを行うかを選択でき、ローカル PDF をアップロードするか、AMiner でドキュメントを直接検索するかを選択できます。

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/131761290