パラメータ数1,800億、世界トップのオープンソース大型モデルFalconが正式発表!Crush LLaMA 2、パフォーマンスは GPT-4 に近い

出典 | 新志源ID | AI時代

一夜にして、世界で最も強力なオープンソース大型モデル Falcon 180B がインターネット全体を巻き起こしました。

1,800 億のパラメーターを備えた Falcon は、3 兆 5,000 億のトークンでトレーニングを完了し、Hugging Face ランキングで直接トップになりました。

ベンチマーク テストでは、Falcon 180B が推論、コーディング、熟練度、知識テストなどのさまざまなタスクで Llama 2 を破りました。

写真

実際、Falcon 180B は Google PaLM 2 と同等であり、そのパフォーマンスは GPT-4 に近いです。

しかし、Nvidia の上級科学者である Jim Fan 氏は、これについて疑問を表明しました。

- コードは Falcon-180B トレーニング データのわずか 5% を占めます。

コードは、推論能力の向上、ツールの使用方法の習得、AI エージェントの強化に最も役立つデータです。実際、GPT-3.5 は Codex に基づいて微調整されています。

- エンコード参照データがありません。

コーディング機能がなければ、「GPT-3.5 より優れている」または「GPT-4 に近い」と主張することはできません。これはトレーニング後の調整ではなく、トレーニング前のレシピに不可欠な部分である必要があります。

- 30B を超えるパラメータを持つ言語モデルについては、ハイブリッド エキスパート システム (MoE) を採用する時期が来ています。これまでのところ、OSS MoE LLM < 10B のみが確認されています。

写真

ファルコン 180B の起源を見てみましょう。

写真

世界で最も強力なオープンソース モデル

これまでに、Falcon は 1.3B、7.5B、および 40B の 3 つのモデル サイズを発売しました。

公式紹介によると、Falcon 180B は 40B のアップグレード版で、アブダビにある世界有数の技術研究センターである TII によって打ち上げられ、無料で商用利用が可能です。

写真

今回、研究者らは、モデルのスケーラビリティを向上させるためにマルチクエリ アテンションを使用するなど、ベース モデルに技術革新を加えました。

写真

トレーニング プロセスに関しては、Falcon 180B は Amazon クラウド機械学習プラットフォームである Amazon SageMaker に基づいており、最大 4096 個の GPU で 3 兆 5000 億のトークンのトレーニングを完了しています。

合計 GPU 計算時間、約 7,000,000。

Falcon 180B のパラメータサイズは Llama 2 (70B) の 2.5 倍であり、学習に必要な計算量は Llama 2 の 4 倍です。

特定のトレーニング データのうち、Falcon 180B は主に RefinedWe データ セットです (約 85% を占めます)。

さらに、会話、技術文書、および小さなコードのコレクションを厳選して組み合わせてトレーニングされました。

この事前トレーニング データ セットは十分な大きさであるため、3 兆 5,000 億のトークンでも占有できるのは 1 エポック未満です。

写真

公式は、Falcon 180B が現時点で「最高の」オープンソース大型モデルであると主張しており、具体的なパフォーマンスは次のとおりです。

MMLU ベンチマークでは、Falcon 180B は Llama 2 70B および GPT-3.5 よりも優れています。

HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD では、Google の PaLM 2-Large に匹敵します。

写真

また、現在、Hugging Face オープンソース大型モデル リストで最高スコア (68.74 点) を獲得し、LlaMA 2 (67.35 点) を上回り、オープン大型モデルとなっています。

写真

Falcon 180B が使用可能です

同時に、研究者らはチャット会話モデル Falcon-180B-Chat もリリースした。このモデルは、Open-Platypus、UltraChat、Airoboros をカバーする会話と指示のデータセットに基づいて微調整されています。

写真

誰でもデモ体験ができるようになりました。

写真

アドレス: https://huggingface.co/tiiuae/falcon-180B-chat

プロンプト形式

基本モデルは大規模な会話モデルではないため、プロンプト形式を持たず、また指示を通じてトレーニングされていないため、会話形式で応答しません。

事前トレーニングされたモデルは微調整に最適なプラットフォームですが、おそらく直接使用しないでください。対話モデルにはシンプルな対話モードがあります。

System: Add an optional system prompt hereUser: This is the user inputFalcon: This is what the model generatesUser: This might be a second turn inputFalcon: and so on

トランスフォーマー

トランスフォーマー 4.33 以降、Falcon 180B を Hugging Face エコシステムで使用およびダウンロードできるようになりました。

Hugging Face アカウントにログインし、最新バージョンの変圧器がインストールされていることを確認してください。

 
 
pip install --upgrade transformershuggingface-cli login

bfloat16

bfloat16 で基本モデルを使用する方法は次のとおりです。Falcon 180B は大型モデルであるため、ハードウェア要件にご注意ください。

このためのハードウェア要件は次のとおりです。

Falcon 180B を完全に微調整したい場合は、少なくとも 8X8X A100 80G が必要であり、推論のみの場合は 8XA100 80G GPU も必要であることがわかります。

写真

 
 
from transformers import AutoTokenizer, AutoModelForCausalLMimport transformersimport torch
model_id = "tiiuae/falcon-180B"
tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    device_map="auto",)
prompt = "My name is Pedro, I live in"inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
output = model.generate(    input_ids=inputs["input_ids"],    attention_mask=inputs["attention_mask"],    do_sample=True,    temperature=0.6,    top_p=0.9,    max_new_tokens=50,)output = output[0].to("cpu")print(tokenizer.decode(output)

次の出力が生成される場合があります。

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

8 ビットおよび 4 ビットのビットサンドバイトの使用

さらに、Falcon 180B の 8 ビットおよび 4 ビット量子化バージョンは、評価の点では bfloat16 とほとんど区別がつきません。

ユーザーは自信を持って量子化バージョンを使用してハードウェア要件を軽減できるため、これは推論にとって朗報です。

推論は 4 ビット バージョンより 8 ビット バージョンの方がはるかに高速であることに注意してください。量子化を使用するには、「bitsandbytes」ライブラリをインストールし、モデルをロードするときに対応するフラグを有効にする必要があります。

model = AutoModelForCausalLM.from_pretrained(    model_id,    torch_dtype=torch.bfloat16,    **load_in_8bit=True,**    device_map="auto",)

対話モデル

前述したように、会話を追跡するために微調整されたモデルのバージョンでは、非常に簡単なトレーニング テンプレートが使用されます。チャット形式の推論を実行するには、同じパターンに従う必要があります。

参考までに、チャット デモの [format_prompt] 関数をご覧ください。

def format_prompt(message, history, system_prompt):    prompt = ""    if system_prompt:        prompt += f"System: {system_prompt}\n"    for user_prompt, bot_response in history:        prompt += f"User: {user_prompt}\n"        prompt += f"Falcon: {bot_response}\n"        prompt += f"User: {message}\nFalcon:"    return prompt

上記からわかるように、ユーザー インタラクションとモデル応答の前に User: および Falcon: 区切り文字が付けられます。それらを結合して、会話履歴全体を含むプロンプトを作成します。このようにして、ビルド スタイルを調整するためのシステム プロンプトを提供できます。

ネチズンからの熱いコメント

多くのネチズンはファルコン 180B の真の強さについて白熱した議論を交わしています。

まったく信じられない。GPT-3.5 を上回り、Google の PaLM-2 Large と同等です。これはゲームチェンジャーです!

写真

スタートアップの CEO は、「Falcon-180B 会話ロボットをテストしたところ、Llama2-70B チャット システムと同等でした」と述べました。HF OpenLLM ランキングでもさまざまな結果が示されています。サイズとトレーニング セットが大きいことを考えると、これは驚くべきことです。

写真

栗をあげます:

いくつかのアイテムを与えて、Falcon-180B と Llama2-70B にそれぞれ答えさせて、その効果を見てみましょう。

Falcon-180B はサドルを動物として誤って数えました。Llama2-70B は簡潔に答えて正解しました。

写真

写真

参考文献:

https://twitter.com/TIIuae/status/1699380904404103245

https://twitter.com/DrJimFan/status/1699459647592403236

https://huggingface.co/blog/zh/falcon-180b

https://huggingface.co/tiiuae/falcon-180B

おすすめ

転載: blog.csdn.net/lqfarmer/article/details/132765938