소개
저자는 대형 모델을 배치하는 데는 시간 지연, 메모리, 컴퓨팅 성능 등의 문제가 있어 현재 추세는 Vicuna, Alpaca 등 그다지 크지 않은 언어 모델을 미세 조정하고 증류하는 것이지만 어려운 일이라고 언급했습니다. 특정 다운스트림 작업에 대한 데이터를 얻는 데 비용이 많이 듭니다.
위의 문제를 해결하기 위해 저자는 더 적은 데이터와 더 작은 모델을 사용하여 동일한 데이터 세트에서 큰 모델을 물리칠 수 있는 Distilling Step-by-Step을 제안합니다. (이 글에서 저자는 770M-T5 실험을 통해 540BPaLM을 물리쳤다)
방법
단계별 증류는 두 단계로 나뉩니다.
- CoT를 통해 일부 레이블이 지정되지 않은 데이터를 입력하여 LLM이 레이블과 이론적 근거를 생성하도록 유도합니다(이러한 결과를 얻은 이유입니다).
- 작은 모델에서 얻은 데이터를 미세 조정합니다.
첫 번째 단계는 다음과 같습니다.
이러한 방식으로 소형 모델은 이 작업을 수행하는 방법과 수행 이유를 학습하고 특정 작업에 대한 소형 모델의 이해를 높일 수 있습니다.
이제 xi(레이블이 지정되지 않은 원래 데이터에서), ri(이론적 기반) 및 yi(레이블)를 사용하여 저자는 세 가지를 더 잘 연결합니다.
질문을 입력하고 출력을 답변 + 답변으로 변경하여 문제를 해결하십시오.
손실 함수를 계산할 때 두 가지에 가중치가 적용됩니다.
실험
참고
https://arxiv.org/pdf/2305.02301.pdf