LoRA의 후속 제품인 ReLoRA가 등장하며, 여러 개의 하위 업데이트 행렬을 중첩하여 보다 효율적인 대규모 모델 학습을 달성합니다.

논문 링크: https://arxiv.org/abs/2307.05695
코드 저장소: https://github.com/guitaricet/peft_pretraining

한동안 대형 모델(LLM) 커뮤니티의 연구자들은 훈련, 미세 조정 및 추론 LLM에 필요한 막대한 컴퓨팅 성능을 줄이는 방법에 집중하기 시작했습니다. 이는 LLM의 지속적인 개발 및 착륙을 촉진하는 데 매우 중요합니다 . 더 많은 수직 분야의 중요성에 대한 LLM. 현재 모델 구조에 있어서 혁신적인 RWKV, 대량의 계산량으로 Transformer 아키텍처를 직접 대체하는 것, RNN 패러다임을 기반으로 하는 새로운 아키텍처로 전환하는 등 이 방향으로 선구적인 연구가 많이 있습니다 . 미세 조정을 위해 원본 LLM에 적은 수의 매개 변수가 포함된 어댑터 모듈을 추가하는 등 모델 미세 조정 단계부터 시작하는 몇 가지 방법도 있습니다 . Microsoft에서 제안한 LoRA(Low-Rank Adaptation) 방법 도 있는데 LoRA는 작업 적응 과정에서 모델 가중치의 업데이트 량을 하위 행렬을 사용하여 추정할 수 있다고 가정하므로 간접적으로 최적화에 사용할 수 있습니다. 원래 사전 훈련된 가중치를 변경하지 않고 유지하면서 의 경량 적응 모듈을 새로 추가했습니다. 현재 LoRA는 대형 모델 엔지니어에게 필요한 미세 조정 기술이 되었지만, 본 논문의 저자는 여전히 LoRA가 달성할 수 있는 미세 조정 효과에 만족하지 않고 중첩된 하위 미세 조정 방법을 제안합니다 . , ReLoRA 라고 합니다 .

이 기사는 매사추세츠 대학교 로웰(University of Massachusetts Lowell) 연구팀이 작성한 것으로, 저자 팀은 최대 350M 매개변수를 갖는 Transformer에 ReLoRA를 적용했을 때 기존 신경망 훈련과 비슷한 성능을 보여주었습니다 . 또한, 본 논문의 저자는 ReLoRA의 미세 조정 효율성이 모델 매개변수 크기의 증가에 따라 계속 증가할 것이라는 점을 관찰했으며, 이는 매우 대규모(보통 1B 매개변수) 향후 LLM.

01. 소개

학계와 업계에서는 지속적으로 다양한 기반 모델을 출시하고 있지만 기본 추론 기능을 갖춘 LLM을 완전히 사전 훈련하려면 잘 알려진 LLaMA-6B와 같은 매우 큰 컴퓨팅 성능이 여전히 필요하다는 것은 부인할 수 없습니다. 모델 [1]이 필요합니다 . 훈련을 완료하는 데 수백 개의 GPU가 필요 하며 이러한 규모의 컴퓨팅 성능으로 인해 대부분의 학술 연구 그룹은 낙담했습니다. 이러한 맥락에서 PEFT(Parameter Efficient Fine-Tuning)는 LLM에 대한 매우 유망한 연구 방향이 되었습니다 . 특히 PEFT 방법을 사용하면 RTX 3090 또는 4090과 같은 소비자급 GPU에서 수십억 규모의 언어 또는 확산 모델을 미세 조정할 수 있습니다 . 따라서 본 논문에서는 PEFT의 하위 훈련 기술, 특히 LoRA 방법에 중점을 둡니다. 저자 는 지난 10년간 딥러닝 개발 단계의 핵심 원칙 중 하나가 지속적으로 "더 많은 레이어를 쌓는 것(Stack more Layer)"이라고 생각합니다. 컨볼루션 신경망을 100개 이상의 레이어로 확장하여 매우 좋은 결과를 얻었습니다. 따라서 이 글에서는 하위 적응의 훈련 효율성도 스택 방식으로 향상될 수 있는지 탐구합니다.

본 논문에서는 상위 네트워크를 훈련하고 미세 조정하기 위한 하위 업데이트 기반의 ReLoRA 방법을 제안합니다. 동일한 수의 훈련 가능한 매개변수를 가진 네트워크보다 성능이 더 좋으며 전체 네트워크를 훈련하는 것과 유사한 성능을 얻을 수도 있습니다. 100M+ 규모의 네트워크 비교 결과는 도 1에 도시된 바와 같다. 구체적으로 ReLoRA 방법은 (1) 전체 순위 훈련 초기화, (2) LoRA 훈련, (3) 매개변수 재시작, (4) 들쭉날쭉한 학습률 일정 및 (5) 최적화 매개변수 섹션 재설정으로 구성됩니다 . 저자는 실험을 위해 현재 매우 인기 있는 자동 회귀 언어 모델을 선택 하고 각 실험에 사용되는 GPU 컴퓨팅 시간이 8일을 초과하지 않도록 합니다 .

02. 본 글의 방법

ReLoRA는 시퀀스 중첩을 통해 소수의 매개변수 집합만 학습하여 전체 순위 학습과 비슷한 성능을 달성하며 원래 네트워크의 고정된 가중치를 유지하고 학습 가능한 새 매개변수를 추가하는 LoRA 방법의 기본 원칙을 따릅니다 . 언뜻 보기에 이 접근 방식은 계산상 비효율적으로 보일 수 있지만, 이 접근 방식이 그라디언트 및 최적화 상태의 크기를 줄여 메모리 효율성을 크게 향상시킬 수 있다는 점을 분명히 해야 합니다. 예를 들어 Adam 최적화 상태는 일반적으로 모델 가중치보다 두 배 많은 비디오 메모리를 소비합니다 . ReLoRA 는 훈련 가능한 매개변수의 수를 크게 줄임으로써 동일한 비디오 메모리 조건에서 더 큰 배치 크기를 사용할 수 있어 하드웨어 효율성을 극대화할 수 있습니다 . ReLoRA의 전반적인 작동 세부 사항은 아래 그림에 나와 있습니다.

03. 실험결과

ReLoRA 방법의 성능을 명확하게 평가하기 위해 저자는 이를 다양한 크기(60M, 130M, 250M, 350M)의 Transformer 모델에 적용하고 C4 데이터 세트에서 학습 및 테스트했습니다. ReLoRA 방법의 보편성을 입증하기 위해 저자는 NLP 분야의 기본적인 언어 모델링 작업에 중점을 둡니다 . 모델 아키텍처와 훈련 하이퍼파라미터 설정은 기본적으로 LLaMA 모델과 일치합니다. LLaMA와 달리 저자는 실험에서 원래의 어텐션 메커니즘(소프트맥스 계산에 float32 사용)을 Flash 어텐션[2]으로 대체하고 계산에 bfloat16 정밀도를 사용하여 훈련 처리량을 아무런 문제 없이 50-100% 까지 늘릴 수 있었습니다. 훈련 안정성 문제. 또한 ReLoRA 방법으로 학습한 모델 매개변수의 규모는 LLaMA에 비해 훨씬 작으며, 가장 큰 모델 매개변수는 350M에 불과해 RTX4090 8개로 하루 만에 완료할 수 있다.

아래 그림은 이 방법과 다른 방법의 성능 비교 효과를 보여주며, ReLoRA가 하위 LoRA 방법보다 훨씬 우수하다는 것을 알 수 있어 제안한 수정의 효율성이 입증됩니다. 또한 ReLoRA는 전체 순위 훈련(Full training)과 비슷한 성능을 달성하며, 네트워크 크기가 증가함에 따라 성능 격차가 점차 좁아지는 것을 관찰할 수 있습니다 . 흥미롭게도 ReLoRA가 초과하지 못하는 유일한 기준 모델은 매개변수가 6천만 개에 불과한 가장 작은 모델입니다. 이러한 관찰은 ReLoRA가 대규모 네트워크의 훈련을 개선하는 데 더 효과적이라는 것을 보여주며, 이는 대규모 네트워크의 훈련을 개선하는 방법을 탐색하려는 저자의 원래 목표와 일치합니다.

04. 요약

이 글은 대규모 Transformer 언어 모델의 학습 비용을 줄이는 데 중점을 둔 작업으로, 저자는 매우 유망한 방향, 즉 하위 학습 기술을 선택하고 가장 간단한 LoRA(low-rank 행렬 분해) 방법부터 시작합니다 . 여러 중첩된 하위 업데이트 행렬을 사용하여 상위 네트워크 학습 이를 달성하기 위해 저자는 매개변수 재시작, 톱니파 학습 속도 스케줄링 알고리즘 및 최적화 매개변수 재설정을 포함한 일련의 작업을 신중하게 설계하여 ReLoRA 알고리즘을 함께 개선했습니다. 어떤 경우에는 특히 대규모 Transformer 네트워크에서 전체 순위 훈련에 필적하는 성능을 달성할 수도 있습니다 . 저자는 수많은 실험을 통해 ReLoRA 알고리즘의 타당성과 운용 효율성을 입증했는데, ReLoRA가 대규모 모델 엔지니어들에게도 꼭 필요한 알고리즘 기술이 될지 궁금합니다.

참고

[1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave 및 G. Lample. Llama: 개방적이고 효율적인 기초 언어 모델입니다. arXiv 사전 인쇄 arXiv:2302.13971, 2023.

[2] T. Dao, DY Fu, S. Ermon, A. Rudra 및 C. Re. Flashattention: IO 인식을 통해 빠르고 메모리 효율적으로 정확한 주의를 기울입니다. AH Oh, A. Agarwal, D. Belgrave 및 K. Cho 편집자, 신경
정보 처리 시스템의 발전, 2022.


  TechBeat 인공 지능 커뮤니티 정보

TechBeat(www.techbeat.net)는 Jiangmen Venture Capital 계열사로 글로벌 중국 AI 엘리트들이 모이는 성장 커뮤니티입니다.

우리는 AI 인재를 위한 보다 전문적인 서비스와 경험을 만들고 그들의 학습과 성장을 가속화하고 동반하기를 희망합니다.

이곳이 여러분에게 최첨단 AI 지식을 배울 수 있는 고지가 되고, 최신 작업을 공유할 수 있는 비옥한 장이 되고, 고급 AI로 가는 길에 몬스터를 업그레이드하고 싸울 수 있는 기반이 되기를 기대합니다!

더 자세한 소개 >> 전 세계 중국 AI 엘리트들이 모이는 학습 및 성장 커뮤니티 TechBeat

Supongo que te gusta

Origin blog.csdn.net/hanseywho/article/details/132452721
Recomendado
Clasificación