chatGPT に追いつくための重要な推進者である大規模モデルのオープンソースの簡単な歴史!

大規模言語モデル (LLM) は人工知能の分野に革命をもたらし、その長期的な影響はますます強くなっています。会話型人工知能の高度な形式である OpenAI の ChatGPT は、ここ数カ月で大きな進歩を遂げ、企業や研究者間の熾烈な競争を引き起こしています。多くの企業が、OpenAI の卓越性に匹敵するために、最先端の会話型 AI システムの開発を競っています。

Google は、PaLM-E を微調整する Bard を通じて貢献し、openAI はマルチモーダル機能を備えた GPT-4 大規模言語モデルを開発しました。さらに、Meta は、オープンソース LLM の推進への対応として、LLaMa と呼ばれる独自の LLM を開発しました。最近、最先端の LLM に関連する多くの情報が明らかになりました。これは特に、Meta が LLaMa のアーキテクチャを非営利目的でのみ研究コミュニティと共有することを選択したためです。

興味深いことに、LLaMa の重みは最終的に漏洩し、専門家や営利団体だけでなく、誰もがこれらの高性能モデルを自分で試すことができるようになりました。

Meta は、学術研究コミュニティにこの優れた LLM へのアクセスを提供することを主な目的として、2023 年 2 月 24 日に LLaMa をリリースしました。チームは、異なるパラメーターを持つ 4 つのバージョンの LLaMa を提示しました: 7B、13B、33B、および 65B。他の大規模な言語モデルと同様に、LLaMa は一連の単語を入力し、次の単語を予測することによってテキストを再帰的に生成します。その論文によると、LLaMa-13B はほとんどのベンチマークで GPT-3 (175B) を上回り、LLaMa-65B は Chinchilla-70B (DeepMind) や PaLM-540B (Google) などの最高のモデルに匹敵します。

LLaMa モデルは、研究コミュニティによる非営利使用のために Facebook Research GitHub を通じて公開されています。ただし、利用できるのは未トレーニングのモデルのみであり、トレーニング済みの重みは研究目的で Google フォーム経由で別途入手できます。この規模で LLaMa をトレーニングするには 2048 個の A100 GPU が必要で、それぞれのコストが約 15,000 ドルであることに注意してください。これは、そのようなモデルを作成するには膨大なリソースが必要であることを示しています。

オーバーヘッドに加えて、LLaMa をトレーニングするには、大規模でクリーンなデータセットを用意することが重要です。これらのモデルのトレーニングには数兆のトークンが必要で、LLaMa-65B と LLaMa-33B では 1.4 兆トークン、LLaMa-7B では 1 兆トークンが必要になります。これらの事前トレーニング済み LLM を使用することで、微調整を行って、ChatGPT のレプリカのような人間との対話が可能な対話モデルを取得できます。

ただし、重要な課題は、手動介入に何百万ドルも費やすことなく、モデルを微調整するために必要なデータを取得することです。これは、OpenAI が InstructGPT (ChatGPT の背後にあるモデル) をトレーニングするために使用したものです。

スタンフォード大学の研究者は、あまりお金をかけずに LLaMa を微調整するための安価な代替手段を発見しました。彼らは、52,000 の命令に従うデモンストレーションを使用して、LLaMa-7B モデルを微調整したモデルである Alpaca-7B を紹介しました。ChatGPT などの指示に従うモデルの主な問題は、偽情報の生成、社会的固定観念の伝播、有害な言葉の生成です。

これらの問題を解決するために、OpenAI は人間によるフィードバック (RLHF) を使用して「悪い」回答を評価するために数百万ドルを費やして InstructGPT を作成しました。ただし、OpenAI は InstructGPT のトレーニングに使用されるデータセットを公開していないため、そのようなモデルを複製することが課題となっています。スタンフォード大学の研究者は、InstructGPT 上に構築された Da-Vinci-003 を使用して、175 の自己ガイド シード タスクに対して 52,000 の命令に従うサンプルを生成することで、この問題に対処しました。

スタンフォード大学のチームによると、52,000 個の命令に従うサンプルを生成するには約 500 ドル、8 つの 80GB A100 GPU を使用してモデルをわずか 3 時間でトレーニングするには約 100 ドルかかりました。モデルのサイズが小さいにもかかわらず、Alpaca と Da-Vinci-003 は、回答の質の点で人間の評価では同様のパフォーマンスを示します。

さらに、Vicuna はオリジナルの LLaMa モデル上に構築されており、全体のトレーニング費用がわずか 300 ドルで、指示に従うタスクに関して OpenAI の ChatGPT や Google の Bard とほぼ同等のパフォーマンスを発揮すると言われています。Vicuna の 2 つのバージョン (7B パラメーターと 13B パラメーター) が非営利目的でリリースされました。以前のモデルと比較した Vicuna の主なアップグレードは、最大コンテキスト長が Alpaca の 512 トークンから 2048 トークンに増加したことです。

ただし、これらのモデルには、サイズが大きく、メモリ要件が大きいという制限があります。これらのモデルの導入には、多額のエネルギーと財務コストが必要です。この制限により、一部の開発者は、大規模なインフラストラクチャを備えた企業だけがこれらのモデルから実際に恩恵を受けることができると信じています。しかし、llama.ccp の Georgi Gerganov の取り組みがその状況を変えました。

Gerganov の llama.ccp コードは、もともと Python で書かれたプロセス LLM を C/C++ に変換することにより、LLM を新しいレベルに引き上げます。C/C++ は、マシンでのコンパイルを必要としない低レベルのプログラミング言語であるため、より高速に実行されます。さらに、このコードは、重みやアクティベーション出力などの 32 ビット浮動小数点数を最も近い 8 ビット固定小数点数に変換するプロセスである 4 ビット量子化をサポートしており、より小さなモデルとより高速な推論が可能になります。

Gerganov らの貢献と、漏洩した LLaMa の重みのおかげで、命令に従うモデル (Alpaca や Vicuna など) をラップトップ上で直接実行できるようになりました。複数のプロジェクトでは、個人のデバイス上で Vicuna を実行するための llama.ccp の使用法について詳しく説明しており、リソースに大きな制約を課さずにアクセス可能なオープンソース AI の進歩への道を切り開きます。

読む

英文原文

お勧め

一般公開なし

AIのおすすめ本

AIは日々変化していますが、高層ビルは良好な基礎から切り離すことはできません。人工知能の原理と実践について学ぶことに興味がありますか? これ以上探さない!AI の原則と実践に関する書籍は、AI の世界について詳しく知りたい人にとって最適なリソースです。この分野の第一線の専門家によって書かれたこの包括的なガイドは、機械学習の基礎からインテリジェント システムを構築するための高度なテクニックまですべてをカバーしています。初心者であろうと経験豊富な AI 実践者であろうと、この本はあなたをカバーします。では、なぜ待つのでしょうか?

人工知能の原理と実践は、人工知能とデータ サイエンスのさまざまな重要なシステムの古典を包括的にカバーしています。

北京大学出版局、人工知能の原理と実践 人工知能とデータ サイエンスの入門から熟練度まで 機械学習ディープ ラーニング アルゴリズムの原理の詳細な説明

おすすめ

転載: blog.csdn.net/robot_learner/article/details/131201824