단일 작업에 대한 LLM 미세 조정 단일 작업에 대한 미세 조정

LLM은 단일 모델 내에서 다양한 언어 작업을 수행하는 능력으로 유명해졌지만, 애플리케이션에서는 단일 작업만 수행하면 됩니다. 이 경우 사전 훈련된 모델을 미세 조정하여 관심 있는 작업에 대해서만 성능을 향상시킬 수 있습니다. 예를 들어 요약을 위해 이 작업에 대한 예시 데이터 세트를 사용합니다. 흥미롭게도 상대적으로 적은 수의 예를 사용하여 좋은 결과를 얻을 수 있습니다. 일반적으로 사전 훈련 중에 모델이 본 수십억 개의 텍스트와 달리 좋은 성능을 달성하는 데는 500~1000개의 예만으로도 충분합니다.여기에 이미지 설명을 삽입하세요

그러나 단일 작업을 미세 조정하는 데는 잠재적인 단점이 있습니다. 이 과정은 치명적인 망각이라는 현상으로 이어질 수 있습니다. 전체 미세 조정 프로세스가 원래 LLM의 가중치를 수정하기 때문에 치명적인 망각이 발생합니다. 이는 단일 미세 조정 작업에서는 탁월한 성능을 발휘하지만 다른 작업에서는 성능이 저하될 수 있습니다.

예를 들어, 미세 조정을 통해 리뷰에 대한 감정 분석을 수행하고 고품질 완성을 생성하는 모델의 능력을 향상할 수 있습니다.
여기에 이미지 설명을 삽입하세요

여기에 이미지 설명을 삽입하세요
그러나 모델은 다른 작업을 수행하는 방법을 잊어버릴 수도 있습니다.

이 모델은 미세 조정 전 문장에서 고양이 이름이 Charlie인 명명된 엔터티 인식 작업을 올바르게 식별하는 방법을 알고 있었습니다.
여기에 이미지 설명을 삽입하세요

그러나 미세 조정 후에 모델은 더 이상 작업을 수행할 수 없었으며, 인식해야 하는 개체를 혼란스럽게 하고 새로운 작업과 관련된 동작을 나타냈습니다.
여기에 이미지 설명을 삽입하세요

그렇다면 치명적인 망각을 피하기 위해 어떤 선택이 필요합니까?

  1. 첫째, 치명적인 망각이 실제로 사용 사례에 영향을 미치는지 여부를 결정하는 것이 중요합니다. 미세 조정하는 단일 작업에 대해서만 안정적인 성능이 필요한 경우 모델이 다른 작업으로 일반화할 수 없는 것은 아마도 문제가 되지 않을 것입니다.
  2. 다중 작업 일반화 기능을 유지하기 위해 모델을 정말로 원하거나 필요로 하는 경우 여러 작업을 한 번에 세부 조정할 수 있습니다. 좋은 다중 작업 미세 조정에는 여러 작업에 걸쳐 50~100,000개의 예시가 필요할 수 있으므로 교육에는 더 많은 데이터와 계산이 필요합니다. 이 옵션에 대해서는 곧 더 자세히 논의하겠습니다.
  3. 두 번째 옵션인 Parameter Efficient Fine-tuning은 전체 규모의 미세 조정 대신 Parameter Efficient Fine-tuning(간단히 PEFT)을 수행합니다. PEFT는 원래 LLM 가중치를 유지하고 소수의 작업별 어댑터 계층 및 매개변수만 훈련하는 기술 그룹입니다. 사전 훈련된 가중치의 대부분은 변경되지 않은 상태로 유지되므로 PEFT는 치명적인 망각에 대해 더 큰 견고성을 나타냅니다. PEFT는 흥미롭고 활발한 연구 분야로 이번 주 후반에 소개할 예정입니다.

그동안 다음 영상으로 넘어가서 멀티태스킹 미세조정에 대해 좀 더 자세히 살펴보도록 하겠습니다.

참고

https://www.coursera.org/learn/generative-ai-with-llms/lecture/cTZRI/fine-tuning-on-a-single-task

Supongo que te gusta

Origin blog.csdn.net/zgpeace/article/details/132485428
Recomendado
Clasificación