ACL2023 | 대형 모델은 어떻게 명령에 따른 데이터 세트를 신속하게 구축합니까? self-instruct: InstructGPT001의 효과를 따라잡기 위해 175개의 시드 데이터를 사용합니다.

ACL2023 | 대형 모델은 어떻게 명령에 따른 데이터 세트를 신속하게 구축합니까? self-instruct: InstructGPT001의 효과를 따라잡기 위해 175개의 시드 데이터를 사용합니다.

hxshine

5명이 이 게시물을 좋아합니다.

I. 개요

제목:SELF-INSTRUCT: 언어 모델을 자체 생성 지침과 정렬

종이 주소: https://arxiv.org/abs/2212.10560

코드: https://github.com/yizhongw/self-instruct

1 동기

  1. 교육 데이터를 구성하는 것은 시간이 많이 걸리고 노동 집약적이며 종종 품질, 다양성 및 창의성이 제한되어 교육 조정 모델의 개발을 방해합니다.
  2. Background: Instruction-tuned 방식 은 모델이 인간의 지시를 이해할 수 있도록 미세 조정된 LLM 모델 에 많은 지시 데이터[ 인간의 지시 및 응답 응답 데이터] 를 사용하는 것을 말하며, 훈련 후 매우 강력한 제로 샷을 가집니다. 새로운 작업 능력.

2가지 방법

  1. 방법개요: 본 논문은 원본 LM 모델이 bootstrapping off 방법을 통해 직접 교수 데이터를 생성 할 수 있는 self-instruct 프레임워크를 제안한다 . 명령어 데이터 의 구축 비용을 크게 줄일 수 있습니다 .
  2. 방법 단계 요약: 소량의 시드 데이터 + LM 모델 자체(튜닝되지 않은 모델) => 명령 생성(명령) + 입력(명령에 언급된 입력, 비어 있을 수 있음) + 출력(응답 출력) => 그런 다음 필터는 유효하지 않으며 유사한 샘플 => 데이터를 따르기 위한 많은 명령 명령을 구성하기 위한 자세한 단계는 다음과 같습니다.

2.1 명령어 데이터 정의

  • 지시: 지시
  • X: 명령에 따라 X는 비어 있거나 비어 있지 않을 수 있습니다. 예: 입력 X는 비어 있음 지시: 학교 안전에 대한 에세이 작성, 비어 있지 않음 입력 지시: 다음 주제에 대한 에세이 작성
  • Y: 답변, X 또는 지시의 이상적인 응답에 따라서만 답변

2.2 자동 명령어 데이터 생성

  • 명령어 생성: 175개의 시드 데이터를 사용하여 새로운 명령어를 생성합니다. 각 단계는 8-few-shot 전략을 채택합니다. 이 중 6개는 사람이 작성하고 2개는 기계가 생성합니다.

  • 분류 작업 식별: 12개의 분류 작업과 19개의 비분류 작업을 퓨샷 예제로 사용하여 1에서 생성된 명령이 분류 작업인지 여부를 예측하기 위해 LM을 사용하여 LM을 사용합니다.

2.3 인스턴스 생성: 인스턴스 X와 Y를 생성하는 데 두 가지 방법이 사용됩니다.

  • 입력 우선 접근 방식은 먼저 명령에 따라 입력 필드 X를 제안한 다음 해당 출력 Y를 생성합니다. 여기서 작업은 입력 X이고 출력은 출력 Y입니다. 컨텍스트 내 학습을 통해서도 이루어집니다. , 주로 비분류를 처리하는 인스턴스가 생성됩니다.

  • 분류 작업의 출력 우선 접근 방식은 먼저 가능한 클래스 레이블을 생성한 다음 해당 문장을 생성합니다[이는 양성 및 음성 샘플의 비율을 제어하기 위해 수행됨]

2.3 필터링 및 후처리

  • 유사도가 상대적으로 높은 샘플과 ROUGE-L이 0.7 미만인 기존 샘플을 필터링합니다.
  • LLM이 일반적으로 처리할 수 없는 이미지, 그림, 그래프 단어 필터링
  • 지침은 같지만 답변이 다른 항목 필터링
  • 너무 길거나 너무 짧은 필터

2.4 미세 조정

  • 다양한 형식의 견고성을 개선하기 위해 교육을 위한 지침과 인스턴스를 인코딩하는 데 여러 템플릿이 사용됩니다.

1.3 결론

  1. 원래 GPT-3 모델과 비교하여 확실히 33% 향상되었으며 InstructGPT001을 거의 따라잡는 효과를 달성했습니다. 퍼블릭 인스트럭트 데이터를 사용해도 좋은 개선이 있습니다.

  • 요약하다:
    • 원본 시드 데이터는 175개만 사용하고 원본 GPT3보다 33포인트 높은 GPT3 인터페이스 미세 조정 모델을 사용했으며 그 효과는 InstructGPT001과 크게 다르지 않습니다.
    • 충분한 훈련 데이터를 가지고 우리는 SUPERNI 데이터 세트(연구 도메인 작업에 더 편향되어 있으며 인간 지침의 분포는 여전히 인간의 분포와 다릅니다. 나중에 실제 인간 지침 분포에 대한 실험도 수행했습니다)에 대해 훈련했습니다. 본 논문에서 제안한 방법을 사용하여 Self-instruct는 여전히 2개의 개선점이 있다.
  1. Self-instruct는 많은 수의 레이블 없이 원래 LM(명령 학습을 거치지 않은 모델)이 사람의 명령을 이해하는 방법을 학습할 수 있도록 하는 솔루션을 제공하므로 명령 데이터 생성 및 레이블 지정 비용을 크게 줄일 수 있습니다.
  2. 이 기사는 명령어 튜닝에 대한 후속 연구를 용이하게 하기 위해 대규모 합성 데이터 세트를 발표했습니다.

1.4 제한

  1. 롱테일 효과는 여전히 상대적으로 심각합니다. 자가 학습은 LM에 의존하여 데이터를 생성하고 LM의 결함을 물려받으며 빈도가 높은 단어에 편향됩니다. 이 효과는 일반 지침에 좋을 수 있지만 롱테일 샘플에는 덜 효과적일 수 있습니다.
  2. 대형 모델에 의존: 대형 모델의 귀납적 편향에 의존하는 것은 대형 모델에서만 더 잘 작동할 수 있습니다.대형 모델의 상대적으로 큰 리소스 요구 사항으로 인해 소형 모델의 사용도 제한됩니다.
  3. LM의 편향 강화: 사회적 편향을 증폭시킬 수 있습니다. 예를 들어 모델이 보다 균형 잡힌 레이블을 생성하지 못할 수 있습니다.

2. 세부사항

1 교육에 대한 사용자의 실제 요구 사항을 지향하는 지침을 구축한 다음 자체 지침이 효과적인지 평가합니다.

  • 배경: SUPERNI 데이터는 연구과제에 더 편향되어 있는데, 여기에서 사용자의 실제 요구에 더 편향된 일부 Instruction을 브레인스토밍을 통해 구성하여 self-instruct의 효과를 테스트하거나 InstructGPT 시리즈와 비교합니다.

  • 결론: 효과는 기본적으로 InstructGPT001에 가깝고 그 효과를 보여주며 여기서는 252개의 시드 데이터만 사용하므로 명령 구성 비용도 크게 줄일 수 있습니다.

2 이 기사에서 self-instruct 방법을 사용하여 확장된 Instruction이 실제로 유용한지 평가합니다.

방법: 교수량과 응답 품질의 두 가지 관점에서 실험을 진행하는데, 응답 품질 비교는 더 나은 모델의 응답을 추출한 실험이다.

  • 실험 1: 확장된 학습 데이터의 크기가 성능에 미치는 영향 평가
    • 방법: 처음 175개의 시드 데이터부터 점차적으로 데이터 양을 늘려가며 효과를 평가한다.
    • 결론: 훈련 데이터는 약 16K이고 효과는 비교적 평평하며 개선이 그다지 크지 않습니다.
  • 실험 2: 생성된 응답의 품질이 성능에 미치는 영향 평가(더 나은 모델 InstructGPT에서 추출된 더 나은 응답)
    • 결론: 44.4%가 54.4%로 개선되었으며, 이는 더 나은 응답 품질이 모델을 크게 개선할 수 있음을 보여줍니다.

3 생성된 데이터의 크기

  • 수량 GPT3의 데이터 크기: 52k 명령 데이터, 82k 인스턴스.

4 생성 데이터의 다양성

  • 평가방법 1: 가장 많이 쓰이는 동사 상위 20개를 선택한 후 top4의 직접명사 목적어 분포도를 그려 전체적인 데이터 분포도를 측정한다.
  • 평가 방법 2: 시드 데이터에 가장 가까운 텍스트의 Rouge-L 분포를 그리고 시드 데이터와의 분포 차이를 측정합니다.
  • 결론: 다양성은 나쁘지 않은 것으로 나타났으며, 이는 생성된 데이터를 통해 모델이 따라야 할 일반적인 지침을 학습할 수 있는 이유 중 하나입니다.

5 생성된 데이터의 품질

  • 통계적 지표: 200개의 명령어가 무작위로 선택되고 각 명령어에 대해 인스턴스가 무작위로 선택되어 표시됩니다.
    • 지시 효율: 92%
    • 입력이 지시와 일치함: 79%
    • 출력이 정확함(명령 및 입력 요구 사항에 잘 응답할 수 있음): 58%
    • 모든 시나리오에서 효과적: 54%
  • 요약: 생성된 데이터에 여전히 오류가 있지만 대부분 정확하며 모델이 사람의 지시를 따르는 방법을 학습하는 데 유용한 지침을 제공할 수 있습니다.

3. 개인 요약

  1. 소량의 시드 데이터 + 원래의 사전 훈련 모델 => 대량의 다양성 생성 가능성 + 좋은 품질의 명령 데이터 => 명령을 따르는 데이터 세트 구성의 비용이 절감될 수 있다는 장점이 있습니다. 크게 감소.
  2. 이 기사는 대형 모델이 인간 지시의 혼란을 이해할 수 있는 이유를 설명합니다. 원래 GPT-3 모델은 많은 지식을 배웠지만 인간 지시를 따르는 능력은 매우 매우 열악함을 알 수 있습니다. 다양하고 높은 - 양질의 지침 데이터 및 답변을 통해 모델은 지침을 이해하고 지침의 특정 의미를 이해하며 인간이 기대하는 반응을 제공할 수 있습니다. 그 중 명령의 [다양성]과 응답의 [품질]은 두 가지 매우 중요한 요소입니다.

  1. 인간의 가치를 정렬하는 방법: 인간에게 무해한 많은 시드 데이터를 구성한 후 모델을 사용하여 많은 지침에 따른 데이터를 생성하는 복단 이끼 모델 [참조 리소스 1]을 참조할 수 있습니다. 또 다른 관점에서 보면 폭력성향 등 인간의 기대치에 미치지 못하는 답변을 생성하도록 모델을 유도하면 매우 유독한 모델을 훈련시킬 수도 있어 매우 무섭기도 하다. Microsoft의 기사에서 원래 The gpt-3.5 시리즈가 더 강력한 기능을 가질 수 있다고 말한 것은 놀라운 일이 아닙니다. 이는 OpenAI가 이와 관련하여 매우 강력한 제약을 가했음을 나타냅니다. OpenAI가 대형 모델의 규제를 강력히 권장하는 것은 당연합니다.
  2. GPT 공유[참조 리소스 2]의 최근 OpenAI 상태는 또한 원래 다음 단어 예측 교육의 사전 교육 LM이 유사한 질문을 구성하는 데는 능숙하지만 응답을 생성하기 위해 사람의 지시를 따르는 데는 능숙하지 않다고 언급했습니다. -트레이닝 단계도 매치 동시에 이 글은 유사한 문제를 잘 구성하는 특성을 이용하여 더 많은 명령어 데이터를 구성하는 것도 상식에 더 가깝습니다.

4. 참고 자료

  1. 복단 팀의 대형 MOSS 모델이 오픈 소스로 공개되었습니다. 주목할 만한 기술적 하이라이트는 무엇인가요? - Sun Tianxiang의 답변 -  Fudan 팀의 대형 모델 MOSS가 오픈 소스로 공개되었다는 사실을 알고 있는데 주목해야 할 기술적 하이라이트는 무엇입니까? - 거의 안다
  2. https://karpathy.ai/stateofgpt.pdf

내 WeChat 공개 계정에 관심을 갖고 직접 종이 업데이트 소식을 확인하는 모든 사람을 환영합니다!

Supongo que te gusta

Origin blog.csdn.net/sinat_37574187/article/details/131985153
Recomendado
Clasificación