단계별 증류: 더 적은 훈련 데이터와 모델 크기로 동일한 수준의 LLM을 능가할 수 있습니다!

단계별 증류: 더 적은 훈련 데이터와 모델 크기로 동일한 수준의 LLM을 능가할 수 있습니다!

소개

저자는 대형 모델을 배치하는 데는 시간 지연, 메모리, 컴퓨팅 성능 등의 문제가 있어 현재 추세는 Vicuna, Alpaca 등 그다지 크지 않은 언어 모델을 미세 조정하고 증류하는 것이지만 어려운 일이라고 언급했습니다. 특정 다운스트림 작업에 대한 데이터를 얻는 데 비용이 많이 듭니다.

여기에 이미지 설명 삽입

위의 문제를 해결하기 위해 저자는 더 적은 데이터와 더 작은 모델을 사용하여 동일한 데이터 세트에서 큰 모델을 물리칠 수 있는 Distilling Step-by-Step을 제안합니다. (이 글에서 저자는 770M-T5 실험을 통해 540BPaLM을 물리쳤다)

방법

여기에 이미지 설명 삽입
단계별 증류는 두 단계로 나뉩니다.

  1. CoT를 통해 일부 레이블이 지정되지 않은 데이터를 입력하여 LLM이 레이블과 이론적 근거를 생성하도록 유도합니다(이러한 결과를 얻은 이유입니다).
  2. 작은 모델에서 얻은 데이터를 미세 조정합니다.

첫 번째 단계는 다음과 같습니다.

여기에 이미지 설명 삽입

이러한 방식으로 소형 모델은 이 작업을 수행하는 방법과 수행 이유를 학습하고 특정 작업에 대한 소형 모델의 이해를 높일 수 있습니다.

이제 xi(레이블이 지정되지 않은 원래 데이터에서), ri(이론적 기반) 및 yi(레이블)를 사용하여 저자는 세 가지를 더 잘 연결합니다.
여기에 이미지 설명 삽입

질문을 입력하고 출력을 답변 + 답변으로 변경하여 문제를 해결하십시오.

손실 함수를 계산할 때 두 가지에 가중치가 적용됩니다.
여기에 이미지 설명 삽입

실험

여기에 이미지 설명 삽입

여기에 이미지 설명 삽입

참고

https://arxiv.org/pdf/2305.02301.pdf

Supongo que te gusta

Origin blog.csdn.net/qq_18555105/article/details/130490101
Recomendado
Clasificación