最近、大型モデルの調査を行ったところ、資料やオープンソースモデルが続々と出てきているので、その現状を記録し更新します。
ラマ
- サイズ: 7B-130B
- 投稿者: メタ
ラマモデルはオープンソースですが申請が必要です、ハグ顔の投稿者が公開しているhf変換モデルもあります(学術的な議論として商業的利益は一時的に無視されます、以下同様)。
これに加えて、スタンフォード大学は、初めて独学で作成した 52,000 コーパスを使用し、lora テクノロジーを使用してアルパカを微調整し、オープンソースにしました。この経験に基づいて、luotuo、camel bell などの一連のアルパカ モデルが登場しました。 。これもオープンソース モデルであり、より優れたエコロジーを備えていると思います。
咲く
- サイズ: 7B-176B
- 投稿者: bigsicence
Lianjia Technology は、 ブルーム に基づいて命令を微調整するためにBELLE をオープンソース化し、また一部の中国のデータセットもオープンソース化しました。
GLM
- サイズ: 6B-130B
- 投稿者: 清華大学
中国語と英語のバイリンガルをサポートする対話言語モデルChatGLM-6Bとベース モデルGLMをオープンソース化
中国語の対話とダウンストリーム アプリケーションに関しては、3.31 の時点で、これは私がこれまでにテストした中で最高のチャット モデルです。chatglm-6B に基づいて、多くの人が次のような多くの微調整コードやアプリケーション コードを提供してきました。
- ChatGLM-Tuning : LoRA に基づいて ChatGLM-6B を微調整します。同様のプロジェクトには、Humanable ChatGLM/GPT Fine-tuning | ChatGLM Fine-tuning も含まれます
- langchain-ChatGLM : LangChain に基づく、ローカルの知識に基づく ChatGLM アプリケーション
- ChatGLM-Finetuning : ChatGLM-6B モデルに基づいて、Freeze、Lora、P チューニングなどを含む下流の特定のタスクを微調整し、実験結果を比較します。
- InstructGLM : ChatGLM-6B に基づいて命令を学習し、オープンソースの中国語と英語の命令データを要約し、Lora に基づいて命令データを微調整し、Alpaca と Belle の微調整後に Lora の重みを開き、web_demo の繰り返し問題を修正します。
現在、著者は情報抽出タスクのために lora に基づいて微調整された chatglm-6b への最初のリンクを参照しています。
- 単一の命令(データセットごとに 1 つのプロンプト)を試してみたところ、データ量は約 3000+、NER の検証効果は約 60 ~ 80 であり、同時に細かいデータに基づいて本来の一般的な能力をテストしました。 -モデルをチューニングしたところ、歴史の忘却という現象が発生し、能力のパフォーマンスがオリジナルのバージョンよりも悪くなることが判明しました。
- chatgpt と人工的に作成した 100 種類の情報抽出命令 (NER のみ) に基づいて、抽出効果はわずかに向上しましたが、効果は顕著ではありませんでした (10 件以上の主観テストに基づく) が、一般的な能力は大幅に向上しました。前回の実験と比べてオリジナル版とほぼ同じレベル。
- gpt4 の 52k データセットに基づいてchatglm-6B を微調整したところ、微調整の前後で大きな変化がないことがわかりました。盲目的な推測では、おそらく chatglm も alpaca によって翻訳された中国語コーパスを微調整に使用したのではないでしょうか?
中国語のトークン化
3 つの事前学習済みモデルの語彙を次の分類に従って大まかにカウントします。なぜ chatglm が中国語に優れたサポート効果があるのか、語彙を見れば少し知ることができます。
モデル | 英文 | 中国語 | 句読点 | 他の | 合計 |
---|---|---|---|---|---|
ラマ-7b-hf | 24120 | 700 | 1167 | 5990 | 31977 |
ベル-7B-2M | 89974 | 28585 | 1827年 | 130223 | 250609 |
チャットglm-6b | 63775 | 61345 | 1469年 | 3660 | 130249 |
交換へようこそ
- 中国モデルはいつ、いくつかの有用なものをオープンソース化できるのでしょうか?
- ドメイン移管、情報抽出による体験と交流
- それ以外