ChatGPT3.5と同様のAIモデルのローカルオフラインバージョンをラップトップにデプロイ(CPU+メモリ操作)

準備

GPUで動作させる場合、一般的なオフィスコンピュータのグラフィックスカードでは要件を満たさない可能性があるため、CPU+メモリによりローカルで動作するAIモデル一式を低コストで導入できます。

1. まず CPU-Z をダウンロードし、実行してコンピュータの現在の命令セットに AVX512 が含まれているかどうかを確認します。AVX512 以外の命令も展開後に実行できるはずですが、実行速度が非常に遅くなる可能性があります。(私のコンピューターは Thinkpad T14 gen2、メモリ 32G、システムは Windows 10)

ここに画像の説明を挿入

2. ラマ.cppをダウンロードします。

llama.cpp AVX512 命令 Baidu クラウド ディスク ダウンロード アドレス
事前コード: an5m

コンピューターが AVX512 命令をサポートしていない場合は、 llama.appを通じて他の命令セットをダウンロードし、すべての展開後にそれが使用できるかどうかを確認してください。

3. 対応するモデルをダウンロードします。

以下の 2 つのモデルが提供されており、任意に選択することも、両方をダウンロードして実行して比較することもできます (個人的には Vicuna をお勧めします)。
ここに画像の説明を挿入

1)、vicuna_13b モデル。

Vicuna Github コード アドレス

Vicuna は "Little Alpaca" として知られています。Vicuna は ShareGPT の 70,000 の対話データに基づいて LLaMA を微調整したモデルです。13b モデルの効果は ChatGPT3.5 の効果の 92% と言われており、一部のスコアは質問と回答は ChatGPT3.5 を超えています。

vicuna_13b Baidu クラウド ディスク ダウンロード アドレス
事前コード: 0n9g

You can download vicuna-13B-1.1-GPTQ-4bit-32g.GGML.bin and vicuna-13B-1.1-GPTQ-4bit-128g.GGML.bin inside
. 私は vicuna-13B-1.1-GPTQ-4bit -128g を使用します。 GGML.bin

2)、alpaca_13bモデル

Alpaca Github コードアドレス

Alpaca はスタンフォード大学が LLaMA モデルの指導に基づいて微調整したモデルで、13b モデルの効果は ChatGPT3.5 の効果に匹敵します (個人的な感覚では Vicuna より若干悪いです)。

alpaca_13b の場合、対応する中国語拡張マージ モデルが中国で提供されます。
alpaca_13b Baidu クラウド ディスク中国語拡張マージ モデル ダウンロード アドレス
事前コード: rru0

導入手順

新しいフォルダーを作成し、ここではフォルダーを「ai」と呼び、ダウンロードした llama.cpp パッケージを解凍します。

ここに画像の説明を挿入
解凍されたファイルは以下の通りです。

ここに画像の説明を挿入

これら 2 つのモデルの具体的な展開方法を以下に示します。一方を選択することも、両方を展開することもできます。

1) vicuna_13b モデルの展開

ダウンロードした vicuna-13B-1.1-GPTQ-4bit-32g.GGML.bin または vicuna-13B-1.1-GPTQ-4bit-128g.GGML.bin ファイルを、新しく作成したフォルダー「ai」に置きます。

ここに画像の説明を挿入

拡張子 .bat を持つ新しいファイルを作成します (メモ帳を作成して拡張子を変更するだけです)。

ここに画像の説明を挿入

新しく作成した .bat ファイルを右クリックして編集し、下図のテキストを入力し、保存して実行します。
ここに画像の説明を挿入

"main.exe" --ctx_size 2048 --temp 0.7 --top_k 40 --top_p 0.5 --repeat_last_n 256 --batch_size 1024 --repeat_penalty 1.17647    --model "vicuna-13B-1.1-GPTQ-4bit-128g.GGML.bin"   --n_predict 2048   --color --interactive   --reverse-prompt "User:"   --prompt "Text transcript of a never ending dialog, where User interacts with an AI assistant named ChatLLaMa. ChatLLaMa is helpful, kind, honest, friendly, good at writing and never fails to answer User's requests immediately and with details and precision. There are no annotations like (30 seconds passed...) or (to himself), just what User and ChatLLaMa say aloud to each other. The dialog lasts for years, the entirety of it is shared below. It's 10000 pages long. The transcript only includes text, it does not include markup like HTML and Markdown."

ランニング効果は下図の通りです
ここに画像の説明を挿入

Vicuna は中国語専用に微調整されていませんが、中国語のサポートは依然として非常に良好です。中国語での Q&A がまだ不完全な場合もあります。複雑な質問は英語で質問し、回答することをお勧めします。

2) alpaca_13b モデルの展開

ダウンロードした ggml-model-f16.bin ファイルを、新しく作成したフォルダー「ai」に置きます。
ここに画像の説明を挿入

拡張子 .bat を持つ新しいファイルを作成します (メモ帳を作成して拡張子を変更するだけです)。

ここに画像の説明を挿入

新しく作成した .bat ファイルを右クリックして編集し、下図のテキストを入力し、保存して実行します。

ここに画像の説明を挿入

"main.exe" --ctx_size 2048 --temp 0.7 --top_k 40 --top_p 0.5 --repeat_last_n 256 --batch_size 1024 --repeat_penalty 1.17647    --model "ggml-model-f16.bin"   --n_predict 2048   --color --interactive   --reverse-prompt "User:"   --prompt "Text transcript of a never ending dialog, where User interacts with an AI assistant named ChatLLaMa. ChatLLaMa is helpful, kind, honest, friendly, good at writing and never fails to answer User's requests immediately and with details and precision. There are no annotations like (30 seconds passed...) or (to himself), just what User and ChatLLaMa say aloud to each other. The dialog lasts for years, the entirety of it is shared below. It's 10000 pages long. The transcript only includes text, it does not include markup like HTML and Markdown."

ランニング効果は下図の通りです
ここに画像の説明を挿入

Alpaca 13b の微調整されたモデル ファイルは大きく、操作には多くのメモリが消費され、いくつかの質問に対する答えは完璧ではありません。

注意:Vicuna和Alpaca都是基于LLaMa的,不能用于商用。

おすすめ

転載: blog.csdn.net/tantu666/article/details/130338393