CPU를 사용하여 ChatGLM-6B를 로컬로 설치, 배포 및 실행하여 나만의 독점 AI 애완동물을 얻으세요.

ChatGLM-6B는 중국어와 영어 이중 언어를 지원하는 Tsinghua 오픈 소스 대화형 언어 모델로, GLM 아키텍처를 기반으로 하며 62억 개의 매개변수를 가지고 있습니다. 모델 양자화 기술과 결합된 ChatGLM-6B는 소비자급 그래픽 카드에서 모델 추론 및 교육을 실행하기 위해 로컬로 설치 및 배포할 수 있습니다(전체 용량에는 14GB의 비디오 메모리만 필요하고 최소 6GB의 비디오 메모리가 필요함). INT4 양자화 수준) IQ는 openAI의 ChatGPT 모델만큼 좋지는 않지만 ChatGLM-6B는 배포 후 완전히 로컬로 실행할 수 있고 매개변수를 마음대로 조정할 수 있는 모델이며 검토 제한이 거의 없고 구성에 대한 제한도 거의 없습니다. 대화 라운드 수.

배포 프로세스

하드웨어 및 소프트웨어 준비

  • 모든 CPU (결국 네티즌들이 여전히 Celeron N6210과 같은 것을 사용하는 것을 볼 수 있음)
  • 최소 32GB의 메모리(모델을 실행하려면 약 23~25GB의 메모리가 필요하기 때문)
  • 30GB 이상의 하드 드라이브 여유 공간
  • SSD를 사용하는 것이 가장 좋습니다. (처음에는 모델을 메모리로 읽어 들여야 하며 모델 자체는 약 11GB의 메모리를 차지합니다. HDD를 사용하면 시작 과정이 오래 걸립니다.)

배포가 공식적으로 시작됩니다

공식 문서에 따라 Python3.9+를 설치합니다.

다운로드채팅GLM-6B

# 下载项目源代码
git clone https://github.com/THUDM/ChatGLM-6B
# 切换到项目根目录
cd ChatGLM-6B
# 安装依赖
pip install -r requirements.txt
# 安装web依赖
pip install gradio
  • 많은 이상한 문제를 방지하려면 전체 경로에 중국어 문자(예: "C:\AI Dialog Tool\")나 공백(예: "C:\Program Files")이 없어야 합니다.
  • 네트워크의 안정성을 신뢰한다면 모델 다운로드 의 다음 단계를 건너뛸 수 있습니다.

모델 다운로드

#下载模型
git clone https://huggingface.co/THUDM/chatglm-6b

10GB가 넘는 콘텐츠를 다운로드해야 합니다.

네트워크가 실제로 제대로 작동하지 않는 경우 모델을 다운로드하는 마지막 명령을 다음으로 바꿀 수 있습니다.

# 下载模型实现
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm-6b

그런 다음 여기 에서 모델 매개변수 파일을 수동으로 다운로드 하고 다운로드한 파일을 새로 생성된 chatglm-6b 폴더로 바꿉니다(이 폴더는 작은 b로 끝납니다).

CPU에서 ChatGLM-6B를 실행하도록 수정되었습니다.

ChatGLM-6B 디렉터리로 돌아가서 web_demo.py파일을 복사하고 이름을 바꿉니다.web.py

시작 부분의 5번째와 6번째 코드 줄을 변경하세요.

from transformers import AutoModel, AutoTokenizer
import gradio as gr
import mdtex2html

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
model = model.eval()

로 변경

from transformers import AutoModel, AutoTokenizer
import gradio as gr
import mdtex2html

tokenizer = AutoTokenizer.from_pretrained("chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("chatglm-6b", trust_remote_code=True).float()
model = model.eval()
  1. 모델 저장 경로 변경:  THUDM/ 5번째, 6번째 줄을 삭제하고 변경했습니다. (이번 수정은 이전 단계에서 모델을 다운로드할 때만 필요합니다. 모델을 다운로드하지 않은 경우에는 변경하지 마세요.)
  2. cuda로 실행에서 CPU로 실행으로 변경: 6행의 마지막 줄을 (cuda with GPU에서 CPU로 실행으로 변경) 로 .half().cuda()변경합니다 ..float()
  3. 향후 코드가 변경되거나 cli에서 시작된 파일을 변경하려는 경우 위 수정 사항을 참고하면 됩니다.

채팅 실행GLM-6B

chatglm-6B 폴더로 돌아가서(모델이 있는 폴더가 아니라 프로그램용이라는 점에 유의하세요) 다음 명령을 입력하세요.

python web.py

프로그램은 웹 서버를 실행하고 주소(127.0.0.1:7860이어야 함)를 출력합니다. 출력 주소를 브라우저에서 열어서 사용하세요.

Je suppose que tu aimes

Origine blog.csdn.net/chaishen10000/article/details/131274835
conseillé
Classement