Huawei, Sorted LLaMA 제안: SoFT가 SFT를 대체하여 올인원 언어 모델 훈련

19c09f87056e1ad29e6b05be83a55cb3.png

딥러닝 자연어 처리 원저자
: Winnie

ChatGPT 및 LLaMa와 같은 대규모 언어 모델(LLM)은 자연어 처리 분야에서 혁신적인 발전을 가져왔습니다. 감독된 미세 조정(SFT) 훈련을 통해 이러한 모델은 강력한 상황별 학습 기능을 갖추고 있으며 다양한 작업에서 뛰어난 성능을 보여주었습니다. 그러나 거대한 저장 공간과 높은 컴퓨팅 리소스 비용이라는 큰 문제도 있습니다.

그러나 이제 연구원들은 SortedNet이라는 새로운 솔루션을 가져왔습니다. 이를 통해 대규모 모델 내에서 각각 고유한 작업 책임 영역을 갖는 여러 "하위 모델"을 생성할 수 있습니다. 이는 우리의 필요와 사용 가능한 리소스에 따라 적절한 하위 모델을 선택할 수 있음을 의미하며, 이를 통해 저장 공간 및 컴퓨팅 리소스에 대한 요구 사항을 크게 줄일 수 있습니다.

이 모든 것 뒤에는 SoFT(Sorted Fine-Tuning)라는 새로운 훈련 기술이 있습니다. SoFT를 사용하면 추가 사전 학습 단계 없이 하나의 학습 주기에서 여러 하위 모델을 생성할 수 있습니다. 또한 이 기술은 이전 연구에서 종종 간과되었던 모델의 중간 계층도 고품질 출력을 생성할 수 있음을 보여줍니다.

이 방법의 효과를 입증하기 위해 연구원들은 테스트 및 검증을 위해 LLaMa 2 13B 및 Stanford Alpaca 데이터 세트를 사용했습니다. 그들은 SFT와 SoFT라는 두 가지 방법을 비교했을 뿐만 아니라 어떤 레이어가 고품질 결과를 가장 잘 생성하는지 결정하기 위해 다양한 수준에서 여러 하위 모델을 만들었습니다. 테스트 결과는 고무적이었습니다. SoFT를 사용하여 생성된 하위 모델은 더 빠르게 실행될 뿐만 아니라 원래 모델의 성능 수준을 유지하거나 심지어 초과할 수도 있었습니다.

SortedNet과 SoFT 기술에 대해 자세히 살펴보겠습니다!

fc5b4795948e0b0ba6dce552b6c8dda2.png

논문: 정렬된 LLaMA: 정렬된 미세 조정 링크를 사용하여 동적 추론을 위한 대규모 언어 모델의 중간 계층의 잠재력 잠금 해제
링크: https://arxiv.org/abs/2309.08968

다인원 LLM

본 연구를 소개하기 전에 먼저 Many-in-One이 무엇인지 알아보겠습니다.

심층 신경망에는 매개 변수가 너무 많아서 모델 배포 비용이 증가하는 경우가 많습니다. 또한 실제 응용 분야에서 이러한 과도하게 매개변수화된 심층 신경망은 다양한 요구 사항과 컴퓨팅 예산을 가진 고객에게 서비스를 제공해야 합니다. 이러한 다양한 요구 사항을 충족하기 위해 다양한 크기의 훈련 모델을 고려할 수 있지만 이는 매우 비용이 많이 들거나(훈련 및 메모리 비용 포함), 또 다른 옵션은 Many-in-One 네트워크를 훈련하는 것입니다.

다인원(Many-in-One) 솔루션은 신경망 모델 내에 여러 개의 하위 네트워크를 포함하고, 각 하위 네트워크는 서로 다른 작업을 수행하거나 서로 다른 구조를 가질 수 있습니다. 이 접근 방식의 목표는 여러 작업이나 모델 구조를 통합 네트워크로 통합하여 모델의 다양성과 적응성을 향상시키는 것입니다. 예를 들어:

  • Early Exit : 훈련 중에 Early Exit는 마지막 예측 레이어 외에 네트워크의 특정 중간 레이어에 추가 예측 헤드를 추가합니다. 이러한 예측 헤드는 필요할 때 중간 예측을 제공하여 더 빠른 추론 속도를 가능하게 합니다.

  • Drop Layer는 훈련 중에 레이어를 무작위로 삭제하여 임의의 깊이로 네트워크를 훈련합니다.

최근 LLM이 큰 주목을 받고 있습니다. 이러한 다양한 요구에 LLM을 적용하기 위해 연구자들은 PEFT(매개변수 효율적 튜닝)와 모델 압축이라는 두 가지 적용 방법을 제안했습니다.

  • PEFT : 코어 백본 모델은 변경되지 않고 일부 어댑터 매개변수만 업데이트됩니다. 이러한 어댑터는 다양한 작업과 요구 사항에 맞게 LLM을 미세 조정하는 역할을 합니다. LoRA, KRONA, Adapter, DyLoRA, Ladder Side-Tuning 및 Compacter 등과 같은 PEFT의 변형이 있습니다. 이러한 방법을 사용하면 LLM을 더욱 유연하게 만들 수 있지만 여전히 동적으로 크기가 조정된 LLM을 제공할 수는 없습니다.

  • 모델 압축 : 모델 압축에서는 지식 증류, 가지치기, 양자화 등의 압축 방법을 통해 대형 모델의 크기를 줄입니다. 이러한 방법은 다양한 크기의 모델을 생성할 수 있지만 각 압축 모델을 별도로 교육해야 하며 올인원 모델이 아닙니다.

이제 Many in one LLM 개념으로 돌아가 보겠습니다. 이것은 매우 흥미로운 아이디어이며 다양한 작업과 요구 사항에 동시에 적용할 수 있습니다. 하지만 지금까지 올인원 LLM 모델이 출시되는 것을 본 적이 없습니다. 따라서 본 연구에서 연구진은 최초의 Many in one LLM이 될 LLaMA 13B 모델에 SortedNet 훈련 방법을 적용했습니다.

방법

본 연구의 방법은 SortedNet 방법에서 영감을 받아 LLM(Large Language Model)을 올인원 모델로 변환하는 것이며 주요 단계는 다음과 같습니다.

  1. 하위 네트워크 형성: 먼저 LLM을 여러 하위 네트워크로 나누어야 합니다. 서브네트워크의 깊이(즉, 처음 n개 레이어의 서브모델)는 fn(x; θn)으로 표시됩니다. 본 연구에서 선택한 언어 모델은 총 40개의 레이어를 포함하는 LLaMA2 13B입니다. 따라서 12레이어, 16레이어, 20레이어 등과 같이 서로 다른 레이어를 가진 일련의 하위 네트워크가 정의됩니다.

  2. 하위 네트워크의 출력 계산: 각 하위 모델의 출력은 원래 네트워크의 마지막 계층의 공유 출력 예측 헤드를 사용하여 예측됩니다. LLaMA 모델에는 출력 예측 헤드 앞에 RMSNorm 레이어가 있고 이 정규화 레이어는 각 하위 모델의 공유 예측 헤드 앞에 추가된다는 점에 유의해야 합니다. 연구원들은 이 정규화가 Sorted LLama가 모든 하위 모델에서 더 잘 일반화되는 데 중요하다고 믿습니다.

  3. 목적 함수: 이러한 하위 네트워크를 훈련하기 위해 각 하위 모델에 대한 손실 함수 Ln(x; θn)이 정의됩니다. 총 손실 L은 모든 하위 모델과 주 모델의 손실을 합한 것입니다.

  4. 훈련 데이터 세트: 이 연구에서는 Stanford Alpaca 데이터 세트가 사용되었으며, 여기에는 예제에 따른 교육 시연 52,000개가 포함되어 있습니다.

  5. 평가: 마지막 레이어의 임베딩 품질을 평가하는 것 외에도 첫 번째부터 n 번째 블록까지의 중간 출력의 임베딩 품질도 평가합니다. Panda-LM 벤치마크는 다양한 하위 모델의 출력을 비교하는 데 사용됩니다. Panda-LM은 대규모 언어 모델을 사용하여 두 소스에서 생성된 텍스트의 품질을 평가합니다. 최종 평가 결과에는 검증 세트의 승, 패, 무승부가 포함됩니다. 최종 점수는 지시에 따른 작업에 대한 모델의 성능을 나타내는 특정 공식을 통해 계산되며 점수 범위는 -1부터 1까지입니다.

  6. 기준선 : 저자는 두 가지 다른 설정을 기준선으로 사용하여 LLama2 13B 모델을 미세 조정했습니다. 즉, 일반 감독 미세 조정(SFT) 및 정렬 미세 조정(SoFT)입니다. 그중에서도 기존의 감독 미세 조정은 주로 네트워크의 마지막 계층 훈련에 초점을 맞춘 일반적인 관행입니다. 이 경우 네트워크의 마지막 계층만 미세 조정됩니다. SoFT(Ranked Fine-tuning)에서는 레이어 12에서 레이어 40(마지막 레이어)까지의 여러 출력에 대해 손실을 계산하고 4개의 간격으로 나누어 이전 섹션에서 설명한 대로 여러 모델을 동시에 학습시킵니다.

실험 결과

생성 모델의 다양한 계층에 대한 순위 정보의 영향은 무엇입니까?

연구자들은 먼저 다양한 수준의 생성 모델에서 정보를 정렬하는 효과에 중점을 두었습니다. 그들은 다양한 수준에서 응답을 생성하는 일련의 실험을 수행하고 PandaLM 추정기를 사용하여 쌍별 비교를 수행했습니다. 결과는 Sorted Fine-Tuning이 학습된 지식을 중간 계층으로 전달하는 데 중요한 영향을 미친다는 것을 보여줍니다. 자동 평가에서 Sorted LLaMA는 거의 모든 수준에서 일반 미세 조정(SFT)보다 성능이 뛰어납니다.

b9fa11ce860ea7c1ebcf693918c87e05.png

SoFT의 성능은 제로샷 방식으로 평가되었지만 SFT 수준의 결과를 더 잘 이해하기 위해 연구원들은 각 하위 모델의 분류 계층에 대한 추가 훈련을 수행했습니다. SFT의 레이어 12 성능은 Sorted LLaMA의 레이어 12에 비해 약간 더 우수하다는 것을 알 수 있습니다. 다음 표는 생성된 응답의 예이며, SFT의 이전 레이어에서 생성된 텍스트가 대부분 왜곡되어 있음을 알 수 있습니다. SFT에서 상위 레이어로 갈수록 생성된 텍스트는 점점 더 의미가 깊어져 정렬된 LLAMA 레이어와의 비교가 더욱 합리적이 됩니다.

81d12d4a6d0785f954a06afee1e0d8e8.png

이 부분의 실험 결과는 Sorted Fine-Tuning이 LLama2 모델의 성능, 특히 중급 수준의 성능에 긍정적인 영향을 미쳐 후속 연구에 중요한 벤치마크를 제공한다는 것을 보여줍니다.

또한 결과는 원래 모델의 성능과 비교할 수 있는 강력하고 작은 하위 모델을 생성하는 Sorted Fine-Tuning의 기능을 강조합니다. 다음 차트에서 연구진이 서로 다른 조건에서 SFT와 SoFT를 평가한 결과, zero-shot이든 early-exit이든 두 방법의 결과에는 거의 변화가 없는 것으로 나타났습니다. 이러한 실험은 Sorted Fine-Tuning의 견고성과 효율성을 보여줍니다.

9e7491b9b9a60cf674b4b075af2ffca6.png f8c2bf0dbbbe726bf41a053b7ddf230a.png

결과 분석

SoFT와 SFT로 학습한 확률 분포 비교

연구자들은 두 확률 분포 간의 유사성을 측정하기 위한 측정 기준으로 Kullback-Leibler(KL) 발산을 사용합니다.

아래 그림 (a)는 서로 다른 출력 위치에서 정렬된 LLaMA 및 SFT 하위 모델의 확률 분포를 비교합니다. 먼저, 왼쪽의 그림 (a)는 SFT 모델의 마지막 레이어와 레이어 12부터 레이어 36까지의 비교를 보여줍니다. 36, 32 등 더 높은 레벨에서도 초기 라벨을 생성한 후 마지막 레이어에 비해 출력 분포가 급격하게 분기되는 것을 확인할 수 있습니다. 이 평가는 분류기 헤드를 조정하지 않고 제로샷 방식으로 생성된다는 점에 유의하는 것이 중요합니다.ed8cc86cf7512a72659c5de659802606.png

아래 그림 (b)는 Sorted LLaMA에서 마지막 레이어에 가까워질수록 생성된 결과의 확률 분포가 적어도 생성된 텍스트의 초기 위치에서 전체 크기 하위 모델에 점점 더 가까워지는 것을 보여줍니다.2495013dc0d1c4efe349ba27566085df.png

아래 그림 (c)는 다양한 SFT 레벨과 마지막 정렬된 LLaMA 레벨 간의 비교를 보여줍니다. 그림은 SFT의 전체 크기 출력 분포만이 정렬된 전체 크기 모델에 가까운 반면, 다른 레벨의 분포는 텍스트 생성의 초기 단계에서 SoFT에 비해 급격히 갈라지는 것을 보여줍니다.52b86fdba6f16e78225fd0eea3afc891.png

그림 (d)는 모든 정렬 수준의 출력 분포를 마지막 SFT 수준의 출력 분포와 비교합니다. 그림 4c(왼쪽)와 비교하면, 그림 4d(왼쪽)는 Sorted LLaMA가 낮은 수준의 초기 출력 라벨링에서도 SFT 전체 규모 모델에 가까운 출력 분포를 유지함을 보여줍니다.b748e5e7183ab7ec71d0d85e4eba2685.png

요약하다

본 연구에서는 동적 추론을 위한 지도형 미세 조정 대신 Sorted Fine-Tuning을 기반으로 얻은 올인원 LLaMA 모델인 Sorted LLaMA를 제안합니다. Sorted LLaMA는 사전 훈련이나 모델 압축과 관련된 추가 오버헤드 없이 동적 적응 기능을 제공하여 중간 계층의 잠재 표현 능력을 잠금 해제합니다. 이는 NLP 분야에서 생성 언어 모델의 최적화에 대한 유망한 접근 방식을 제공합니다.

SoFT를 사용하면 이러한 모델을 더욱 효율적으로 배포할 수 있습니다. 모든 하위 모델은 원본 모델의 필수 부분으로 유지되므로 저장 요구 사항과 다양한 계산 요구 사항 간의 전환 비용이 최소화되므로 추론 중에 여러 모델을 관리하는 것이 실용적입니다.

이러한 분석 결과는 특히 다양한 모델 수준에서 생성된 모델의 출력 분포에 대한 Sorted Fine-Tuning의 영향과 출력 분포를 유지하는 Sorted LLaMA의 기능을 보여줍니다. 이러한 결과는 Sorted Fine-Tuning 방법의 효과를 더 깊이 이해하는 데 도움이 됩니다.


NLP 그룹 가입 -> NLP 커뮤니케이션 그룹 가입

Supongo que te gusta

Origin blog.csdn.net/qq_27590277/article/details/133327627
Recomendado
Clasificación