オープンソースの大規模モデルのドキュメント

オープンソースの大規模モデルの調査

リーダーボード

私たちは、大規模言語モデル (LLM) のベンチマーク プラットフォームである Chatbot Arena を紹介します。これは、匿名でランダム化された戦闘をクラウドソーシングします。このブログ投稿では、チェスやその他の競技ゲームで広く使用されている評価システムである Elo 評価システムに基づいた暫定結果とリーダーボードを公開します。コミュニティ全体がこの取り組みに参加し、新しいモデルを提供し、質問したりお気に入りの回答に投票して評価したりすることを歓迎します。
ここに画像の説明を挿入

1.ラマ

LLaMA プロジェクトは、70 億から 650 億パラメータのサイズの基本言語モデルのセットで構成されています。これらのモデルは数百万のトークンでトレーニングされ、すべて公開されているデータセットでトレーニングされます。その結果、LLaMA-13B は GPT-3 (175B) を上回り、LLaMA-65B は Chinchilla-70B や PaLM-540B などの最高のモデルと同等の性能を発揮します。

ここに画像の説明を挿入
ここに画像の説明を挿入

リソース:

  • 研究論文: 「LLaMA: オープンで効率的な基盤言語モデル (arxiv.org)」 [https://arxiv.org/abs/2302.13971]
  • GitHub:facebookresearch/llama [https://github.com/facebookresearch/llama]
  • 演示:Baize Lora 7B [https://huggingface.co/spaces/project-baize/Baize-7B]

2.チャイニーズ・LLaMA・アルパカ

ChatGPTやGPT-4などに代表されるLarge Language Model(LLM)は、汎用人工知能(AGI)の能力を示す自然言語処理分野で新たな研究の波を起こし、広く注目を集めています。業界。しかし、大規模な言語モデルのトレーニングと展開には非常に費用がかかるため、透明でオープンな学術研究の構築に一定の障害が生じています。

中国の NLP コミュニティにおける大規模モデルのオープンな研究を促進するために、このプロジェクトは、微調整された命令を備えた中国の LLaMA モデルと Alpaca の大規模モデルをオープンソース化しました。オリジナルの LLaMA に基づいたこれらのモデルは、中国語の語彙を拡張し、二次事前トレーニングに中国語データを使用することで、中国語の基本的な意味の理解をさらに向上させます。同時に、中国のアルパカ モデルは微調整のために中国語の命令データをさらに使用し、命令を理解して実行するモデルの能力を大幅に向上させます。

ここに画像の説明を挿入

リソース:

  • GitHub:https://github.com/ymcui/ Chinese-LLaMA-Alpaca

3.アルパカ

スタンフォード大学の Alpaca は、ChatGPT と競合でき、誰でも 600 ドル未満で複製できると主張しています。Alpaca 7B は、52K 命令準拠のデモンストレーションで LLaMA 7B モデルから微調整されています。

ここに画像の説明を挿入

リソース:

  • ブログ: スタンフォード CRFM。[https://crfm.stanford.edu/2023/03/13/alpaca.html]
  • GitHub:tatsu-lab/stanford_alpaca [https://github.com/tatsu-lab/stanford_alpaca]

4.アルパカ-LoRA

Low Rank Adaptation (LoRA)を使用してStanford Alpaca の結果を再現するコード

リソース:

  • GitHub: https://github.com/tloen/alpaca-lora
  • デモ: Alpaca-LoRA [https://huggingface.co/spaces/tloen/alpaca-lora]

5. ビクーニャ

Vicuna は、ShareGPT から収集されたユーザーの共有ダイアログの LLaMA モデルに基づいて微調整されています。Vicuna-13B モデルは、OpenAI ChatGPT および Google Bard の品質の 90% 以上に達しています。また、90% の確率で LLaMA モデルや Stanford Alpaca モデルを上回ります。ビクーニャの訓練には約 300 ドルかかります。

写真

リソース:

  • ブログ投稿: 「Vicuna: 90%* ChatGPT 品質で GPT-4 を印象づけるオープンソース チャットボット」 [https://vicuna.lmsys.org/]
  • GitHub:lm-sys/FastChat [https://github.com/lm-sys/FastChat#fine-tuning]
  • デモ: FastChat (lmsys.org) [https://chat.lmsys.org/]

6.オープンチャットキット

OpenChatKit: オープンソースの ChatGPT の代替品であり、チャットボットを作成するための完全なツールキットです。ユーザー独自の命令調整をトレーニングするための大規模な言語モデル、モデルの微調整、ボットの応答を更新するためのスケーラブルな検索システム、質問をフィルタリングするためのボットが管理する命令を提供します。

ここに画像の説明を挿入

GPT-NeoXT-Chat-Base-20B モデルは、質問応答、抽出、および分類のタスクにおいて、基本モデル GPT-NoeX よりも優れていることがわかります。

リソース:

  • ブログ投稿:「OpenChatKit の発表」—TOGETHER [https://www.together.xyz/blog/openchatkit]
  • GitHub: togethercomputer/OpenChatKit [https://github.com/togethercomputer/OpenChatKit]
  • デモ: OpenChatKit [https://huggingface.co/spaces/togethercomputer/OpenChatKit]
  • モデルカード: togethercomputer/GPT-NeoXT-Chat-Base-20B [https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B]

7.GPT4ALL

GPT4ALL はコミュニティ主導のプロジェクトであり、コード、ストーリー、説明、複数ターンの対話を含む補助インタラクションの大規模コーパスでトレーニングされています。チームは、オープンソースを促進するために、データセット、モデルの重み、データ管理手順、トレーニング コードを提供しました。さらに、ラップトップで実行できるモデルの量子化 4 ビット バージョンもリリースしました。Python クライアントを使用してモデル推論を実行することも可能です。
ここに画像の説明を挿入

  • テクニカルレポート: GPT4All [https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf]
  • GitHub: nomic-ai/gpt4al [https://github.com/nomic-ai/gpt4all]
  • デモ: GPT4All (非公式)。[https://huggingface.co/spaces/rishiraj/GPT4All]
  • モデルカード:nomic-ai/gpt4all-lora ハグフェイス [https://huggingface.co/nomic-ai/gpt4all-lora]

8.レイブンRWKV

Raven RWKV 7B は、ChatGPT と同様の結果を生成する RWKV 言語モデルを利用したオープンソース チャットボットです。このモデルは RNN を使用しており、品質とスケーラビリティの点で Transformer に匹敵すると同時に、より高速で VRAM を節約できます。Raven は、Stanford Alpaca、code-alpaca、その他のデータセットに基づいて微調整されました。

ここに画像の説明を挿入

リソース:

  • GitHub:BlinkDL/ChatRWKV [https://github.com/BlinkDL/ChatRWKV]
  • デモ: Raven RWKV 7B [https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B]
  • モデルカード: BlinkDL/rwkv-4-raven [https://huggingface.co/BlinkDL/rwkv-4-raven]

9.オプト

OPT: Open Pre-trained Transformer 言語モデルは ChatGPT ほど強力ではありませんが、ゼロショットおよび数ショット学習とステレオタイプ バイアス分析において優れた機能を示します。より良い結果を得るために、Alpa、Colossal-AI、CTranslate2、FasterTransformer と統合することも可能です。**注:** テキスト生成カテゴリで月間 624,710 件のダウンロードがあり、その人気によりリストに掲載されました。

ここに画像の説明を挿入

リソース:

  • 研究論文: 「OPT: オープン事前トレーニング済みトランスフォーマー言語モデル (arxiv.org)」 [https://arxiv.org/abs/2205.01068]
  • GitHub: facebookresearch/metaseq [https://github.com/facebookresearch/metaseq]
  • デモ: LLM 用のウォーターマーク [https://huggingface.co/spaces/tomg-group-umd/lm-watermarking]
  • モデルカード: facebook/opt-1.3b [https://huggingface.co/facebook/opt-1.3b]

10.フラン-T5-XXL

Flan-T5-XXL は、命令の形式で表現されたデータセットに基づいて T5 モデルを微調整します。命令の微調整により、PaLM、T5、U-PaLM などのさまざまなモデル クラスのパフォーマンスが大幅に向上します。Flan-T5-XXL モデルは、1,000 を超える追加タスクで微調整され、より多くの言語をカバーします。
ここに画像の説明を挿入

リソース:

  • 研究論文: 「スケーリング命令 - 微調整された言語モデル」 [https://arxiv.org/pdf/2210.11416.pdf]
  • GitHub: google-research/t5x [https://github.com/google-research/t5x]
  • デモ: チャット Llm ストリーミング [https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming]
  • モデル カード: google/flan-t5-xxl [https://huggingface.co/google/flan-t5-xxl?text=Q%3A+%28+False+or+not+False+or+False+%29+is] %3F+A%3A+Let%27s+考えて+ステップ+バイ+ステップ]

11.MPT-7B

MPT の正式名称は MosaicML Pretrained Transformer で、MosaicML がリリースする一連の大規模モデルです。業界では多くの大規模なモデルが公開されていますが、これらのモデルは通常、トレーニングとデプロイが困難です。MosaicML がこのような大規模なモデルをリリースする目的は、上記の制限を解決し、完全にオープンソースで商用利用可能な大規模なモデルを提供することです。MPT シリーズの主な特長は次のとおりです。

  1. 商用ライセンスあり

  2. 大量のデータに基づいたトレーニング

  3. 目標は、長い入力 (最大 65K 入力、84K 処理) を解決することです。

  4. トレーニングと推論速度の最適化

  5. 効率的なオープンソースのトレーニング コード

ここに画像の説明を挿入

リソース:

  • モデルの GitHub リンク https://github.com/mosaicml/llm-foundry

  • モデルHuggingFaceリンク https://huggingface.co/mosaicml/mpt-7b

  • 論文 https://www.mosaicml.com/blog/mpt-7b

12.清華チャットGLM-6B

ChatGLM-6B は、62 億のパラメータを備えた一般言語モデル (GLM) アーキテクチャに基づくオープンソースの中国語と英語のバイリンガル対話言語モデルです。モデル量子化テクノロジと組み合わせることで、ユーザーは民生用グラフィック カードにローカルに展開できます (INT4 量子化レベルで必要なビデオ メモリは 6 GB のみです)。ChatGLM-6B は、中国語の Q&A と対話に最適化された ChatGPT と同様のテクノロジーを使用しています。中国語と英語のバイリンガル トレーニングで約 1T の識別子を取得し、監視と微調整、フィードバック自助、ヒューマン フィードバック強化学習、その他のテクノロジーによって補完された後、62 億個のパラメーターを備えた ChatGLM-6B は、非常に一致した回答を生成することができました。人間の好みで。ダウンストリーム開発者が独自のアプリケーション シナリオに合わせてモデルをカスタマイズし、P-Tuning v2 に基づく効率的なパラメータ微調整方法 (使用ガイド) を実現するために、微調整を開始するには最低 7GB のビデオ メモリが必要です。 INT4 量子化レベル。

ここに画像の説明を挿入

リソース:

  • GitHub リンク https://github.com/THUDM/ChatGLM-6B

13.不断MOSS

報道によると、MOSSは中国語と英語のバイリンガルとさまざまなプラグインをサポートするオープンソースの対話言語モデルで、moss-moonシリーズのモデルには160億のパラメータがあり、FP16では1枚のA100/A800または2枚の3090グラフィックスカードで実行できるという。 /8 精度は、1 枚の 3090 グラフィックス カードで実行できますMOSS ペデスタル言語モデルは、約 7,000 億の中国語、英語、暗号語で事前トレーニングされており、対話命令の微調整、プラグインによる強化学習、および人間の好みのトレーニングを経て、複数回の対話と、複数のプラグインを使用する機能。

ここに画像の説明を挿入

リソース:

  • GitHub リンク https://github.com/OpenLMLab/MOSS

付録

トレーニング推論のための最小限のリソースの概要

モデル 推論 トレーニング(微調整)
ラマ 17G できない
チャイニーズ-LLaMA-アルパカ 3.9G
アルパカ 不特定 112G
アルパカ-LoRA 不特定 23g
ビクーニャ 14G 160G
オープンチャットキット 40G 不特定
GPT4すべて 16G 不特定
レイヴン RWKV 15G 不特定
オプト 不特定 350GB
フラン-T5-XXL 不特定 不特定
MPT-7B 不特定 不特定
清華チャットGLM-6B 7g 96G
復ダンMOOS 7.8G 不特定

コーパス

1.ウィキペディアのjsonバージョン(wiki2019zh)

104万件(1,043,224件、元ファイルサイズ1.6G、圧縮ファイル519M、データ更新日:2019.2.7)

構造:

{"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中,title是词条的标题,text是正文;通过"\n\n"换行。

例:

{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。\n\n经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

ここに画像の説明を挿入

2. ニュースコーパスjson版(news2016zh)

ニュース250万件(オリジナルデータ9G、圧縮ファイル3.6G、ニュース内容範囲:2014年~2016年)

Google ドライブのダウンロードまたはBaiduクラウド ディスクのダウンロード、パスワード: k265

データの説明

250万件のニュース記事を収録。ニュース ソースは、タイトル、キーワード、説明、テキストを含む 63,000 のメディアをカバーしています。

データセットのパーティショニング: データは重複排除され、3 つの部分に分割されます。トレーニング セット: 243 万、検証セット: 77,000、テスト セット、数万、ダウンロードできません。

考えられる用途:

可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;

也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);

亦可以通过新闻渠道区分出新闻的类型。

構造:

{'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}

其中,title是新闻标题,content是正文,keywords是关键词,desc是描述,source是新闻的来源,time是发布时间

例:

{"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近

ここに画像の説明を挿入

3.百科事典Q&A JSON版(baike2018qa)

150万件の質問と回答(オリジナルデータ1G以上、圧縮ファイル6億6,300万件、データ更新時期:2018年)

Google ドライブのダウンロードまたはBaiduクラウド ディスクのダウンロード、パスワード: fu45

データの説明

事前にフィルタリングされた 150 万件の高品質な質問と回答がカテゴリごとに 1 つずつ含まれています。カテゴリは合計 492 あり、そのうち頻度が 10 以上のカテゴリは 434 あります。

データセットのパーティショニング: データは重複排除され、3 つの部分に分割されます。トレーニング セット: 142 万 5,000、検証セット: 45,000、テスト セット、数万、ダウンロードできません。

考えられる用途:

可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建

更好句子表示的模型、句子相似性任务等。

構造:

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。

例:

{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊? ", "desc": "", "answer": "你好!\r\r当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”\r\r不过,秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药,有病治病,无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里,人们由于喝冷饮,常食冻品,多有脾胃功能减弱的现象,这时候如果突然大量进补,会骤然加重脾胃及肝脏的负担,使长期处于疲弱的消化器官难于承受,导致消化器官功能紊乱。 \r\r二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。 \r\r四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后,由于脾胃尚未完全恢复到正常功能,因此过于油腻的食品不易消化吸收。另外,体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

パブリックコメント:

検証セットのモデルの精度を報告することを歓迎します。タスク 1: クラスの予測。

レポートには、#1) 検証セットの精度率、#2) 使用したモデル、メソッドの説明、操作方法、1 ページの PDF、#3) 実行可能なソース コード (オプション) が含まれます。

#2 と #3 に基づいて、テスト セットでテストし、テスト セットでの精度を報告します。チーム #1 と #2 のみが提供され、検証セットの結果は引き続き表示できますが、次のようにマークされます。未確認。

ここに画像の説明を挿入

4. コミュニティの質問と回答 json バージョン (webtext2019zh): 大規模で高品質なデータセット

410 万件の質問と回答 (フィルタリングされたデータ 3.7G、圧縮ファイル 1.7G、データ範囲: 2015 ~ 2016 年)

Googleドライブダウンロード

データの説明

事前にフィルタリングされた 410 万件の高品質な質問と回答が含まれています。各質問は [トピック] に属し、合計 28,000 のさまざまなトピックがあり、トピックは包括的です。

1,400万件のオリジナル質問と回答の中から、少なくとも3件以上の「いいね」を獲得した回答、つまり回答内容が比較的良い、または興味深いものを選択し、高品質なデータセットを取得します。

トピックに対応する各質問、質問の説明、および 1 つ以上の返信に加えて、各返信には、いいねの数、返信 ID、返信者のタグも含まれます。

データセットのパーティショニング: データは重複排除され、3 つの部分に分割されます。トレーニング セット: 412 万、検証セット: 68,000、テスト セット a: 68,000、テスト セット b、ダウンロードできません。

考えられる用途:

1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据

2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。

3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、

  问题与答案的相关性,找到最好的答案。

4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。

5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。

構造:

{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,

"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

其中,qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;topic是问题所属的话题,star是该回复的点赞个数,

content是回复的内容,answer_id是回复的ID,answerer_tags是回复者所携带的标签

例:

{"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

ここに画像の説明を挿入

このデータセットに関する公開評価とタスク:

タスク 1: トピックの予測。

レポートには、#1) 検証セットの精度率、#2) 使用したモデル、メソッドの説明、操作方法、1 ページの PDF、#3) 実行可能なソース コード (オプション) が含まれます。

#2 と #3 に基づいて、テスト セットでテストし、テスト セットでの精度を報告します。チーム #1 と #2 のみが提供され、検証セットの結果は引き続き表示できますが、次のようにマークされます。未確認。

タスク 2: コミュニティ質問応答 (cQA) システムをトレーニングします。

要件: 評価指標は MAP を使用し、問題の分類に適したテスト セットを構築し、テスト セットへの影響を報告します。

タスク 3: このデータ セット (webtext2019zh) を使用し、OpenAI の GPT-2 を参照し、中国語テキスト記述モデルをトレーニングし、他のデータ セットに対するゼロショットの効果をテストするか、言語モデルの効果を評価します。

5. 翻訳コーパス (translation2019zh)

520万件の中国語・英語対訳コーパス(オリジナルデータ1.1G、圧縮ファイル596M)

Googleドライブダウンロード

データの説明

520万対の中英対訳コーパス。各ペアには英語と対応する中国語が含まれています。中国語や英語では、ほとんどの場合、句読点を含む完全な文になります。

中国語と英語の並列ペアの場合、中国語には平均 36 単語、英語には平均 19 単語 (「彼女」などの単語) が含まれます。

データセットのパーティショニング: データは重複排除され、3 つの部分に分割されます。トレーニング セット: 516 万、検証セット: 39,000、テスト セット、数万、ダウンロードできません。

考えられる用途:

可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;

由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

構造:

{"english": <english>, "chinese": <chinese>}

其中,english是英文句子,chinese是中文句子,中英文一一对应。

例:

{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}

、数万、ダウンロードはできません。

考えられる用途:

可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;

由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

構造:

{"english": <english>, "chinese": <chinese>}

其中,english是英文句子,chinese是中文句子,中英文一一对应。

例:

{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}

ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq128252/article/details/130646154