何百もの論文が大規模言語モデルの最新の研究の進歩を調査しています

 ©著者|王暁雷 

  機関|中国人民大学  

 アクセス | 会話による情報アクセス  

By | RUC AIボックス  

NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

この記事では、2022 年以降に主要な会議で発表された大規模言語モデルに関連する論文を整理します。

ガイド

昨年末、OpenAI が立ち上げた ChatGPT は、わずか数か月で世界中で人気を博しました。GPT-3.5 に基づくこの大規模な言語モデルは、驚くべき自然言語の生成と理解の能力を備えており、対話、翻訳、要約などのタスクを人間のように実行できます。その優れたパフォーマンスにより、ChatGPT とその背後にある大規模な言語モデルは、人工知能の分野で急速に話題になり、多くの研究者や開発者の注目と参加を集めました。

この記事では、2022 年に主要な会議 (ACL、EMNLP、ICLR、ICML、NeurIPS など) で発表された大規模言語モデルに関する100 の論文を整理します。論文のリストは、Github ウェアハウス (https://github.com/RUCAIBox/Top-conference-paper-list)に同期して更新されています。注目してスターを付けてください。

カタログ(カタログ)

  • 研修【研修】

    • Pre-Training [プレトレーニング]

    • Instruction Tuning [命令微調整]

  • Utilization【使用】

    • In Context Learning【文脈学習】

    • Chain-of-Thought Prompting [Thinking Chain Tips]

    • コンプレッション[圧縮]

    • その他【その他】

  • お申し込み [お申し込み]

    • マルチモーダル【マルチモーダル】

    • コード [コード]

    • 検索 [検索]

    • テキスト生成 [テキスト生成]

    • その他【その他】

  • 分析・評価【分析・評価】

研修【研修】

Pre-Training [プレトレーニング]

  • UL2: 言語学習パラダイムの統一

  • 効率的な変圧器トレーニングのための事前トレーニング済みモデルの成長の学習

  • 専門家の混合による効率的な大規模言語モデリング

  • Knowledge-in-Context: 知識のあるセミパラメトリック言語モデルに向けて

  • CodeGen: マルチターン プログラム合成によるコード用のオープンな大規模言語モデル

  • InCoder: コードの埋め込みと合成のための生成モデル

  • CodeBPE: ソース コードでの大規模な言語モデルの事前トレーニングのためのサブトークン化オプションの調査

  • CodeRetriever: コード検索のための大規模な対照的な事前トレーニング方法

  • UniMax: 大規模な多言語事前トレーニングのためのより公平で効果的な言語サンプリング

  • GLM-130B: オープンなバイリンガルの事前トレーニング済みモデル

  • FLUE と FLANG の出会い: 金融分野のベンチマークと大規模な事前トレーニング済み言語モデル

Instruction Tuning [命令微調整]

  • 指導学習を困難にするものは何ですか? 合成環境での調査と新たな挑戦

  • InstructDial: 命令チューニングによる対話におけるゼロおよび少数ショットの一般化の改善

  • ゼロショットクロスタスク一般化のためのラベルなしデータを使用した学習命令

  • Super-NaturalInstructions: 1600 以上の NLP タスクでの宣言的命令による一般化

  • メタ学習による命令からの自然言語生成の促進

  • 詩を書くのを手伝ってください - 共同詩を書くための手段としての命令チューニング

  • 誤謬認識のためのマルチタスク命令ベースのプロンプト

  • すべてのタスクが等しく生まれるわけではない: ゼロショット一般化を理解する

  • HypeR: マルチタスク ハイパープロンプト トレーニングにより大規模な検索の一般化が可能に

Utilization【使用】

In Context Learning【文脈学習】

  • インコンテキスト学習とはどのような学習アルゴリズムですか? 線形モデルによる調査

  • Ask Me Anything: 言語モデルを促すための簡単な戦略

  • 大規模な言語モデルは人間レベルの迅速なエンジニアです

  • デモンストレーションと言語指示の両方を使用してロボットのタスクを効率的に学習する

  • kNN Prompting: キャリブレーション不要の最近傍推論によるコンテキスト外学習

  • 指示を推測してください!反転学習は言語モデルをより強力にするゼロショット学習者

  • 選択的注釈により言語モデルが改善される

  • インコンテキスト学習のためのアクティブな例の選択

  • デモンストレーションの役割を再考する: インコンテキスト学習を機能させるものは何か?

  • 少数発話対話状態追跡のためのコンテキスト内学習

  • コンテキスト内の専門家の混合による科学プロトコルにおける少数ショットのアナフォラ解決

  • ProGen: インコンテキスト フィードバックによるプログレッシブ ゼロ ショット データセットの生成

  • インコンテキスト学習による制御可能な対話シミュレーション

  • 生物医学 IE 向けの GPT-3 In-Context Learning について考えていますか? もう一度考えて

  • XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL セマンティック パーシング

  • In-Context Learningの構成的汎化ギャップについて

  • カウンセリング会話のためのリフレクション生成のコンテキスト内非専門家評価に向けて

  • In-Context Learningを用いたモラルフレームのFew-Shot同定に向けて

Chain-of-Thought Prompting [Thinking Chain Tips]

  • ReAct: 言語モデルにおける推論と行動の相乗効果

  • 選択推論: 解釈可能な論理的推論のための大規模な言語モデルの活用

  • 常識を促すニューロシンボリック手続き計画

  • 言語モデルは貪欲な推論者である: 思考連鎖の体系的な形式的分析

  • PINTO: プロンプト生成根拠を使用した忠実な言語推論

  • 分解プロンプト: 複雑なタスクを解決するためのモジュール式アプローチ

  • マルチステップ推論のための複雑性ベースのプロンプト

  • 大規模な言語モデルでプロンプトを表示する思考の自動チェーン

  • 大規模言語モデルによる構成的意味解析

  • 自己一貫性は、言語モデルにおける思考の推論の連鎖を改善します

  • 最小から最大へのプロンプトにより、大規模な言語モデルで複雑な推論が可能に

  • Entailer: 忠実で誠実な推論の連鎖で質問に答える

  • 思考の連鎖のための事前訓練された言語モデルを反復的に促す

  • ConvFinQA: 会話型金融質問応答における一連の数値推論の探索

  • 誘導された自然言語の理論的根拠とインターリーブされたマークアップトークンにより、大規模な言語モデルの外挿が可能になります

コンプレッション[圧縮]

  • 大型トランスエンコーダーの量子化を意識したトレーニングのための知識蒸留の理解と改善

  • The Optimal BERT Surgeon: 大規模言語モデルのためのスケーラブルで正確な 2 次剪定

  • AlphaTuning: 大規模な事前トレーニング済み言語モデルの量子化認識パラメーター効率的な適応

その他【その他】

  • BBTv2: 大規模言語モデルによる勾配のない未来に向けて

  • 大規模言語モデルの構成タスク表現

  • 微調整を 2 回行うだけ: 大規模な言語モデルの選択的差分プライバシー

お申し込み [お申し込み]

マルチモーダル【マルチモーダル】

  • 大規模言語モデルからの記述による視覚的分類

  • ソクラテス モデル: ゼロ ショット マルチモーダル推論を言語で構成する

  • プラグアンドプレイ VQA: ゼロ トレーニングで大規模な事前トレーニング済みモデルを結合することによるゼロ ショット VQA

コード [コード]

  • DocPrompting: ドキュメントを取得してコードを生成する

  • コード生成のための大規模な言語モデルの計画

  • CodeT: 生成されたテストを使用したコード生成

  • 言語モデルはより良いプログラミングを学ぶことができる

検索 [検索]

  • Promptagator: 8 つの例からの少数ショット高密度検索

  • 暗唱強化言語モデル

  • 取得ではなく生成: 大規模な言語モデルは強力なコンテキスト ジェネレーターです

  • QUILL: 検索増強と多段階蒸留を使用した大規模な言語モデルによるクエリの意図

テキスト生成 [テキスト生成]

  • 自己修正を学習してシーケンスを生成する

  • RankGen: 大規模なランキング モデルによるテキスト生成の改善

  • 教師なしの知識に基づいた会話のための大規模な事前トレーニング済みモデルからの知識の引き出し

その他【その他】

  • 行き止まり分析による言語モデルの体系的修正

  • 言語モデルによるリワード デザイン

  • 双方向言語モデルも少数の学習者です

  • 反復コンセンサスによる事前トレーニング済みモデルのアンサンブルの構成

  • 記号言語におけるバインディング言語モデル

  • Mind's Eye: グラウンディング言語モデル シミュレーションによる推論

分析・評価【分析・評価】

  • WikiWhy: 因果関係の質問に答えて説明する

  • ROSCOE: 段階的な推論を採点するための一連の指標

  • 神経言語モデル全体の記憶の定量化

  • Transformer でのメモリの一括編集

  • コード生成モデルの多言語評価

  • ストリート: マルチタスク構造化推論と説明のベンチマーク

  • 多肢選択式質問応答のための大規模言語モデルの活用

  • 壊れたニューラル スケーリングの法則

  • 言語モデルは、多言語の思考連鎖推論器です

  • 言語モデルは現実的な表形式のデータ ジェネレーターです

  • 人間と言語モデルにおけるタスクのあいまいさ

  • 教師なしで言語モデルの潜在知識を発見する

  • GPT-3 の信頼性を高める

  • 大規模な言語モデルは、少数の臨床情報抽出器です

  • 大規模な言語モデルが機械の言い換えによる盗作をどのように変えているか

  • 心の神経理論?大規模な LM における社会的知性の限界について

  • SLING: 大規模言語モデルの中国言語評価

  • 大規模言語モデルにおける常識知識の体系的調査

  • 語彙の一般化は、より大きなモデルとより長いトレーニングで改善されます

  • 大規模な言語モデルは言語を超えて何を学ぶのか?

  • 大規模な事前トレーニング済み言語モデルにおける英語の動詞クラスと交代の理解の調査


NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

自然言語処理NLPの日々の質の高い論文の解釈、関連する生の情報、AIアルゴリズムの位置付けなどの最新情報を引き続き公開します。

惑星に参加すると、次のものが得られます。

1.  3 ~ 5 個の最新の高品質の用紙速度測定値を毎日更新します

2. 最新の入門および上級学習教材

4.  NLP、サーチ、昇進・昇格、CVなどのAI職の1日1~3件の募集情報

ed58a82e0b5d0ec4640aa8ddd3a91174.png

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/130002786