RedPajama モデルは、TOGETHER によってリリースされたオープンソースの商用利用可能な大規模モデルです。2023 年 6 月 6 日、TOGETHER はこのモデルが訓練を完了したことを正式に発表し、テストの結果、このモデルは現在 7B スケールのすべての大型モデルを上回り、LLaMA-7B や Falcon-7B よりも優れています。
TOGETHERは元Apple幹部やスタンフォード大学教授らが設立した豪華経営陣で構成される新興企業。その目標は、大規模な生成モデルのためのインフラストラクチャを提供することです。
RedPajama は、TOGETHER と数社によって開始されたオープンソースの大規模モデル プロジェクトです。現在、LLaMA モデル ペーパーの方法に従って厳密に収集された 1 兆 2,000 億のトークンを含むオープンソース データセットが含まれています。さらに、2 つのオープンソース大規模モデルも含まれており、1 つは RedPajama 3B で、5 月 5 日にトレーニングの終了を発表しており、RTX 2070 で使用できます。もう一つのモデルは、昨日トレーニング完了を発表したこの記事で紹介した RedPajama 7B で、その効果は現行の同サイズモデルを上回ります。
RedPajama 3B モデル情報カード:
https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B
1. RedPajama データセットの概要
4月17日、TOGETHERは世間によく知られているRedPajamaプロジェクトをリリースした。プロジェクトは、オープンソースの大規模言語モデルを構築することを望んでいます。その最初のステップは、LLaMA 論文で言及されている高品質の事前トレーニング データセットを再現することです。彼らは、大規模なモデルのトレーニングには高品質の大規模な事前トレーニング データセットが必要な条件であると考えています。MetaAI オープンソース LLaMA モデルは、最も強力なオープンソース モデルとして理解できます。ただし、オープンソース化されるのは事前トレーニング結果のみであり、商用利用は許可されていません。RedPajama は MetaAI の論文に基づいてそのようなデータセットを自ら収集しました。
したがって、彼らは 1 兆 2,000 億トークンの RedPajama データセットをオープンソース化しました。これは、LLaMA の論文で説明されているように収集された 5 TB データセットです。これは何千回もダウンロードされ、100 を超えるモデルのトレーニングに使用されています。
2. RedPajama 7B モデルの紹介
RedPajama データセットのリリースから 1 週間後の 4 月 23 日、TOGETHER は、この 1 兆 2,000 億トークンのデータセットに基づいて RedPajama-7B と呼ばれるモデルをトレーニングし、トレーニングの 40% を完了したが、その効果は Pythia-7B を上回ったと発表しました。これは、大規模で高品質な事前トレーニング データセットの価値を示しています。
5 月 5 日、RedPajama-7B モデルのトレーニング プロセスは 80% に達しましたが、その効果は予想外だったので、TOGETHER は、基本的な大規模モデル、チャットベースの微調整、指示ベースの微調整の 3 つのバージョンを含む RedPajama 7B の 0.1 バージョンをリリースしました。
RedPajama-7B v0.1 バージョン | 事前トレーニングのダウンロード リンク |
---|---|
RedPajama-INCITE-Base-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1 |
RedPajama-INCITE-Chat-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1 |
RedPajama-INCITE-命令-7B-v0.1 | https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1 |
ここでの Base モデルは基本的な大規模言語モデルであり、Pythia モデルと同じアーキテクチャを使用していますが、RedPajama データセットに基づいてトレーニングされていますが、Chat は Base モデルのトレーニング (Dolly2 および OASST の微調整に基づく) に基づいた命令の微調整の結果です。Chat バージョン モデルはすでに OpenChatKit で使用できます。Instruct は、Base モデルに基づいて数ショット プロンプトを微調整した結果です。多くの NLP タスクを微調整します (P3 および Natural struct から)。
本日、TOGETHERはRedPajama 7Bがすべてのトレーニングを完了したことを発表しました。3 つの RedPajama モデルのフルバージョンはすべてオープンソースです。
RedPajama-7B v1.0 バージョン | 事前トレーニングのダウンロード リンク |
---|---|
レッドパジャマ-INCITE-7B-Base | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base |
レッドパジャマ-INCITE-チャット-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat |
RedPajama-INCITE-命令-7B | https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct |
上記のモデルはすべて、完全にオープンソースで商用利用可能な Apache2.0 オープン ソース プロトコルを使用しています。
3. RedPajama 7Bモデルの効果
TOGETHER は HELM タスクで評価されます。RedPajama-INCITE-Instruct-7Bを使用した結果、RedPajama 7B Instructの平均HELMスコアは0.492で、LLaMA 7Bの0.472や少し前の最強オープンソースモデルFalcon 7Bの0.407を上回りました。
レッドパジャマ第二世代モデル近日登場
前述の RedPajama 7B モデルのオープンソースに加えて、公式は RedPajama V2 バージョンのニュースも発表しました。RedPajama 2 は、2 ~ 3 兆のトークンのデータセットでトレーニングされます。主な計画は以下の通りです。
-
ドレミなどの技術に基づいて、さまざまなデータの組み合わせを自動的に学習する準備をします。
-
Pile v1 (Eleuther.ai より) や Pile v2 (CrperAI) などのデータセットを導入して、トレーニング データの多様性を高めます
-
より多くの CommonCrawl データセットを処理する
-
より優れたデータ重複排除戦略を使用する
-
少なくとも 1,500 億トークンのコード データセットを導入します。
公式説明によると、RedPajama 2 は今後もオープンソースであり続けます。
RedPajama を支援する INCITE スーパーコンピューターへの資金提供
RedPajama プロジェクトは、申請者の DOE スーパーコンピューターの使用時間を補助することで、誰もが超大規模コンピューティング リソースを使用できるようにする、米国国立科学財団の INCITE プロジェクトと切り離せないものです。RedPajama はトレーニングに合計 3072 個の V100 GPU を使用しました。
ご覧のとおり、スーパーコンピューターへのプロジェクト資金は、このような大規模なモデルのトレーニングを促進するために重要です。現時点では、中国で誰もが申請できるそのようなリソースがあるかどうかは不明です。あれば国産大型モデルの開発も促進されるかもしれませんね!