지금까지 70억 개의 매개변수를 가진 가장 강력한 대형 언어 모델: 오픈 소스 및 상업적으로 사용 가능한 RedPajam 7B 정식 버전이 출시되었습니다!

RedPajama 모델은 오픈 소스이며 TOGETHER에서 출시한 상용 대형 모델입니다. 2023년 6월 6일, TOGETHER는 모델이 훈련을 완료했다고 공식 발표했습니다.테스트 결과 현재 모델은 모든 7B 규모의 대형 모델을 능가하며 LLaMA-7B 및 Falcon-7B보다 훨씬 뛰어납니다!

TOGETHER는 고급스러운 경영진으로 구성된 스타트업 회사로, 전직 Apple 경영진과 스탠포드 대학 교수들이 설립했습니다. 그 목표는 대규모 생성 모델을 위한 인프라를 제공하는 것입니다.

RedPajama는 TOGETHER와 여러 회사에서 시작한 오픈 소스 대규모 모델 프로젝트입니다. 현재 LLaMA 모델 문서의 방법에 따라 엄격하게 수집된 1조 2천억 개의 토큰이 있는 오픈 소스 데이터 세트가 포함되어 있습니다. 또한 2개의 오픈 소스 대형 모델도 포함되어 있으며 하나는 5월 5일 교육 종료를 발표하고 RTX 2070에서 사용할 수 있는 RedPajama 3B입니다. 또 다른 모델은 이 기사에서 언급한 RedPajama 7B로, 어제 교육 완료를 발표했으며 그 효과는 동일한 크기의 모든 기존 모델을 능가합니다.

  RedPajama 3B 모델 정보 카드:

https://www.datalearner.com/ai-models/pretrained-models/RedPajama-INCITE-3B

1. RedPajama 데이터셋 소개

4월 17일, TOGETHER는 대중에게 잘 알려진 RedPajama 프로젝트를 공개했습니다. 이 프로젝트는 오픈 소스 대규모 언어 모델을 구축하기를 희망하며, 그 첫 번째 단계는 LLaMA 논문에 언급된 고품질 사전 교육 데이터 세트를 재현하는 것입니다. 그들은 고품질의 대규모 사전 훈련 데이터 세트가 대규모 모델 훈련에 필요한 조건이라고 믿습니다. MetaAI 오픈 소스 LLaMA 모델은 가장 강력한 오픈 소스 모델로 이해할 수 있습니다. 단, 사전 학습 결과만 공개하며 상업적 이용은 허용하지 않습니다. RedPajama는 MetaAI의 논문을 기반으로 이러한 데이터 세트를 직접 수집했습니다.

따라서 그들은 1조 2천억 개의 토큰에 대한 RedPajama 데이터 세트를 오픈 소스화했습니다. 이것은 LLaMA 논문에 설명된 대로 수집된 5TB 데이터 세트입니다. 수천 번 다운로드되었으며 100개 이상의 모델을 교육하는 데 사용되었습니다.

2. RedPajama 7B 모델 소개

RedPajama 데이터셋 공개 일주일 후인 4월 23일, TOGETHER는 이 1조 2천억 개의 토큰 데이터셋을 기반으로 RedPajama-7B라는 모델을 훈련시키고 있다고 발표했고, 훈련의 40%를 완료했지만 그 효과는 Pythia-7B를 능가했습니다. 이것은 대규모 고품질 사전 교육 데이터 세트의 가치를 보여줍니다.

5월 5일 RedPajama-7B 모델의 훈련 과정이 80%에 도달했지만 그 효과는 예상하지 못했기 때문에 TOGETHER는 기본 대형 모델, 채팅 기반 미세 조정 및 명령 기반 미세 조정의 3가지 버전을 포함하는 RedPajama 7B 0.1 버전을 출시했습니다.

RedPajama-7B v0.1 버전 사전 교육 다운로드 링크
RedPajama-INCITE-Base-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1
RedPajama-INCITE-채팅-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1
RedPajama-INCITE-Instruct-7B-v0.1 https://huggingface.co/togethercomputer/RedPajama-INCITE-Instruct-7B-v0.1

여기서 Base 모델은 기본 대형 언어 모델로 Pythia 모델과 동일한 아키텍처를 사용하지만 RedPajama 데이터 세트를 기반으로 학습되며 Chat은 Base 모델 학습을 기반으로 명령 미세 조정 결과(Dolly2 및 OASST 미세 조정 기반) Chat 버전 모델은 이미 OpenChatKit에서 사용할 수 있습니다. Instruct는 기본 모델을 기반으로 몇 발의 프롬프트를 미세 조정한 결과입니다. 많은 NLP 작업에 대한 미세 조정(P3 및 Natural Instruction에서).

오늘 TOGETHER는 RedPajama 7B가 모든 교육을 완료했다고 발표했습니다. 3가지 RedPajama 모델의 전체 버전은 모두 오픈 소스입니다.

RedPajama-7B v1.0 버전 사전 교육 다운로드 링크
RedPajama-INCITE-7B-베이스 https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Base
RedPajama-INCITE-채팅-7B https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat
RedPajama-INCITE-Instruct-7B https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Instruct

위의 모델은 모두 Apache2.0 오픈 소스 프로토콜을 사용하며 완전히 오픈 소스이며 상업적으로 사용할 수 있습니다!

3. RedPajama 7B 모델의 효과

TOGETHER는 HELM 작업에서 평가됩니다. RedPajama-INCITE-Instruct-7B를 사용하였으며, 그 결과 RedPajama 7B Instruct의 평균 HELM 점수는 0.492로 LLaMA 7B의 0.472, 얼마 전 가장 강력한 오픈소스 모델인 Falcon 7B의 0.407을 넘어섰다.

Red Pajama 2세대 모델 출시 예정

위에서 언급한 RedPajama 7B 모델의 오픈 소스 외에도 관계자는 RedPajama V2 버전 소식도 발표했습니다. RedPajama 2는 2-3조 토큰의 데이터 세트에서 훈련될 것입니다. 주요 계획은 다음과 같습니다.

  1. DoReMi와 같은 기술을 기반으로 다양한 데이터 혼합을 자동으로 학습하도록 준비합니다.

  2. 교육 데이터의 다양성을 높이기 위해 Pile v1(Eleuther.ai에서) 및 Pile v2(CrperAI)와 같은 데이터 세트 도입

  3. 더 많은 CommonCrawl 데이터 세트 처리

  4. 더 나은 데이터 중복 제거 전략 사용

  5. 최소 1,500억 토큰의 코드 데이터 세트를 도입합니다.

공식 설명에 따르면 RedPajama 2는 계속해서 오픈 소스가 될 것입니다!

RedPajama를 뒷받침하는 INCITE 슈퍼컴퓨터 펀딩

RedPajama 프로젝트는 신청자의 DOE 슈퍼컴퓨터 사용 시간을 보조하여 누구나 초대형 컴퓨팅 리소스를 사용할 수 있는 문턱을 낮추는 미국 국립과학재단의 INCITE 프로젝트와 불가분의 관계에 있습니다. RedPajama는 훈련에 총 3072개의 V100 GPU를 사용했습니다.

알 수 있듯이 슈퍼컴퓨터에 대한 프로젝트 자금 조달은 이러한 대규모 모델 교육을 용이하게 하는 데 중요합니다. 현재 중국에서 모든 사람이 신청할 수 있는 이러한 자원이 있는지 여부는 알려지지 않았습니다. 있다면 이것도 국내 대형 모델의 발전을 촉진시킬 수 있습니다!

추천

출처blog.csdn.net/weixin_48827824/article/details/131289006