LLM은 단일 모델 내에서 다양한 언어 작업을 수행하는 능력으로 유명해졌지만, 애플리케이션에서는 단일 작업만 수행하면 됩니다. 이 경우 사전 훈련된 모델을 미세 조정하여 관심 있는 작업에 대해서만 성능을 향상시킬 수 있습니다. 예를 들어 요약을 위해 이 작업에 대한 예시 데이터 세트를 사용합니다. 흥미롭게도 상대적으로 적은 수의 예를 사용하여 좋은 결과를 얻을 수 있습니다. 일반적으로 사전 훈련 중에 모델이 본 수십억 개의 텍스트와 달리 좋은 성능을 달성하는 데는 500~1000개의 예만으로도 충분합니다.
그러나 단일 작업을 미세 조정하는 데는 잠재적인 단점이 있습니다. 이 과정은 치명적인 망각이라는 현상으로 이어질 수 있습니다. 전체 미세 조정 프로세스가 원래 LLM의 가중치를 수정하기 때문에 치명적인 망각이 발생합니다. 이는 단일 미세 조정 작업에서는 탁월한 성능을 발휘하지만 다른 작업에서는 성능이 저하될 수 있습니다.
예를 들어, 미세 조정을 통해 리뷰에 대한 감정 분석을 수행하고 고품질 완성을 생성하는 모델의 능력을 향상할 수 있습니다.
그러나 모델은 다른 작업을 수행하는 방법을 잊어버릴 수도 있습니다.
이 모델은 미세 조정 전 문장에서 고양이 이름이 Charlie인 명명된 엔터티 인식 작업을 올바르게 식별하는 방법을 알고 있었습니다.
그러나 미세 조정 후에 모델은 더 이상 작업을 수행할 수 없었으며, 인식해야 하는 개체를 혼란스럽게 하고 새로운 작업과 관련된 동작을 나타냈습니다.
그렇다면 치명적인 망각을 피하기 위해 어떤 선택이 필요합니까?
- 첫째, 치명적인 망각이 실제로 사용 사례에 영향을 미치는지 여부를 결정하는 것이 중요합니다. 미세 조정하는 단일 작업에 대해서만 안정적인 성능이 필요한 경우 모델이 다른 작업으로 일반화할 수 없는 것은 아마도 문제가 되지 않을 것입니다.
- 다중 작업 일반화 기능을 유지하기 위해 모델을 정말로 원하거나 필요로 하는 경우 여러 작업을 한 번에 세부 조정할 수 있습니다. 좋은 다중 작업 미세 조정에는 여러 작업에 걸쳐 50~100,000개의 예시가 필요할 수 있으므로 교육에는 더 많은 데이터와 계산이 필요합니다. 이 옵션에 대해서는 곧 더 자세히 논의하겠습니다.
- 두 번째 옵션인 Parameter Efficient Fine-tuning은 전체 규모의 미세 조정 대신 Parameter Efficient Fine-tuning(간단히 PEFT)을 수행합니다. PEFT는 원래 LLM 가중치를 유지하고 소수의 작업별 어댑터 계층 및 매개변수만 훈련하는 기술 그룹입니다. 사전 훈련된 가중치의 대부분은 변경되지 않은 상태로 유지되므로 PEFT는 치명적인 망각에 대해 더 큰 견고성을 나타냅니다. PEFT는 흥미롭고 활발한 연구 분야로 이번 주 후반에 소개할 예정입니다.
그동안 다음 영상으로 넘어가서 멀티태스킹 미세조정에 대해 좀 더 자세히 살펴보도록 하겠습니다.
참고
https://www.coursera.org/learn/generative-ai-with-llms/lecture/cTZRI/fine-tuning-on-a-single-task