ACL2023 | 대형 모델은 어떻게 명령에 따른 데이터 세트를 신속하게 구축합니까? self-instruct: InstructGPT001의 효과를 따라잡기 위해 175개의 시드 데이터를 사용합니다.
5명이 이 게시물을 좋아합니다.
I. 개요
제목:SELF-INSTRUCT: 언어 모델을 자체 생성 지침과 정렬
종이 주소: https://arxiv.org/abs/2212.10560
코드: https://github.com/yizhongw/self-instruct
1 동기
- 교육 데이터를 구성하는 것은 시간이 많이 걸리고 노동 집약적이며 종종 품질, 다양성 및 창의성이 제한되어 교육 조정 모델의 개발을 방해합니다.
- Background: Instruction-tuned 방식 은 모델이 인간의 지시를 이해할 수 있도록 미세 조정된 LLM 모델 에 많은 지시 데이터[ 인간의 지시 및 응답 응답 데이터] 를 사용하는 것을 말하며, 훈련 후 매우 강력한 제로 샷을 가집니다. 새로운 작업 능력.
2가지 방법
- 방법개요: 본 논문은 원본 LM 모델이 bootstrapping off 방법을 통해 직접 교수 데이터를 생성 할 수 있는 self-instruct 프레임워크를 제안한다 . 명령어 데이터 의 구축 비용을 크게 줄일 수 있습니다 .
- 방법 단계 요약: 소량의 시드 데이터 + LM 모델 자체(튜닝되지 않은 모델) => 명령 생성(명령) + 입력(명령에 언급된 입력, 비어 있을 수 있음) + 출력(응답 출력) => 그런 다음 필터는 유효하지 않으며 유사한 샘플 => 데이터를 따르기 위한 많은 명령 명령을 구성하기 위한 자세한 단계는 다음과 같습니다.
2.1 명령어 데이터 정의
- 지시: 지시
- X: 명령에 따라 X는 비어 있거나 비어 있지 않을 수 있습니다. 예: 입력 X는 비어 있음 지시: 학교 안전에 대한 에세이 작성, 비어 있지 않음 입력 지시: 다음 주제에 대한 에세이 작성
- Y: 답변, X 또는 지시의 이상적인 응답에 따라서만 답변
2.2 자동 명령어 데이터 생성
- 명령어 생성: 175개의 시드 데이터를 사용하여 새로운 명령어를 생성합니다. 각 단계는 8-few-shot 전략을 채택합니다. 이 중 6개는 사람이 작성하고 2개는 기계가 생성합니다.
- 분류 작업 식별: 12개의 분류 작업과 19개의 비분류 작업을 퓨샷 예제로 사용하여 1에서 생성된 명령이 분류 작업인지 여부를 예측하기 위해 LM을 사용하여 LM을 사용합니다.
2.3 인스턴스 생성: 인스턴스 X와 Y를 생성하는 데 두 가지 방법이 사용됩니다.
- 입력 우선 접근 방식은 먼저 명령에 따라 입력 필드 X를 제안한 다음 해당 출력 Y를 생성합니다. 여기서 작업은 입력 X이고 출력은 출력 Y입니다. 컨텍스트 내 학습을 통해서도 이루어집니다. , 주로 비분류를 처리하는 인스턴스가 생성됩니다.
- 분류 작업의 출력 우선 접근 방식은 먼저 가능한 클래스 레이블을 생성한 다음 해당 문장을 생성합니다[이는 양성 및 음성 샘플의 비율을 제어하기 위해 수행됨]
2.3 필터링 및 후처리
- 유사도가 상대적으로 높은 샘플과 ROUGE-L이 0.7 미만인 기존 샘플을 필터링합니다.
- LLM이 일반적으로 처리할 수 없는 이미지, 그림, 그래프 단어 필터링
- 지침은 같지만 답변이 다른 항목 필터링
- 너무 길거나 너무 짧은 필터
2.4 미세 조정
- 다양한 형식의 견고성을 개선하기 위해 교육을 위한 지침과 인스턴스를 인코딩하는 데 여러 템플릿이 사용됩니다.
1.3 결론
- 원래 GPT-3 모델과 비교하여 확실히 33% 향상되었으며 InstructGPT001을 거의 따라잡는 효과를 달성했습니다. 퍼블릭 인스트럭트 데이터를 사용해도 좋은 개선이 있습니다.
- 요약하다:
- 원본 시드 데이터는 175개만 사용하고 원본 GPT3보다 33포인트 높은 GPT3 인터페이스 미세 조정 모델을 사용했으며 그 효과는 InstructGPT001과 크게 다르지 않습니다.
- 충분한 훈련 데이터를 가지고 우리는 SUPERNI 데이터 세트(연구 도메인 작업에 더 편향되어 있으며 인간 지침의 분포는 여전히 인간의 분포와 다릅니다. 나중에 실제 인간 지침 분포에 대한 실험도 수행했습니다)에 대해 훈련했습니다. 본 논문에서 제안한 방법을 사용하여 Self-instruct는 여전히 2개의 개선점이 있다.
- Self-instruct는 많은 수의 레이블 없이 원래 LM(명령 학습을 거치지 않은 모델)이 사람의 명령을 이해하는 방법을 학습할 수 있도록 하는 솔루션을 제공하므로 명령 데이터 생성 및 레이블 지정 비용을 크게 줄일 수 있습니다.
- 이 기사는 명령어 튜닝에 대한 후속 연구를 용이하게 하기 위해 대규모 합성 데이터 세트를 발표했습니다.
1.4 제한
- 롱테일 효과는 여전히 상대적으로 심각합니다. 자가 학습은 LM에 의존하여 데이터를 생성하고 LM의 결함을 물려받으며 빈도가 높은 단어에 편향됩니다. 이 효과는 일반 지침에 좋을 수 있지만 롱테일 샘플에는 덜 효과적일 수 있습니다.
- 대형 모델에 의존: 대형 모델의 귀납적 편향에 의존하는 것은 대형 모델에서만 더 잘 작동할 수 있습니다.대형 모델의 상대적으로 큰 리소스 요구 사항으로 인해 소형 모델의 사용도 제한됩니다.
- LM의 편향 강화: 사회적 편향을 증폭시킬 수 있습니다. 예를 들어 모델이 보다 균형 잡힌 레이블을 생성하지 못할 수 있습니다.
2. 세부사항
1 교육에 대한 사용자의 실제 요구 사항을 지향하는 지침을 구축한 다음 자체 지침이 효과적인지 평가합니다.
- 배경: SUPERNI 데이터는 연구과제에 더 편향되어 있는데, 여기에서 사용자의 실제 요구에 더 편향된 일부 Instruction을 브레인스토밍을 통해 구성하여 self-instruct의 효과를 테스트하거나 InstructGPT 시리즈와 비교합니다.
- 결론: 효과는 기본적으로 InstructGPT001에 가깝고 그 효과를 보여주며 여기서는 252개의 시드 데이터만 사용하므로 명령 구성 비용도 크게 줄일 수 있습니다.
2 이 기사에서 self-instruct 방법을 사용하여 확장된 Instruction이 실제로 유용한지 평가합니다.
방법: 교수량과 응답 품질의 두 가지 관점에서 실험을 진행하는데, 응답 품질 비교는 더 나은 모델의 응답을 추출한 실험이다.
- 실험 1: 확장된 학습 데이터의 크기가 성능에 미치는 영향 평가
- 방법: 처음 175개의 시드 데이터부터 점차적으로 데이터 양을 늘려가며 효과를 평가한다.
- 결론: 훈련 데이터는 약 16K이고 효과는 비교적 평평하며 개선이 그다지 크지 않습니다.
- 실험 2: 생성된 응답의 품질이 성능에 미치는 영향 평가(더 나은 모델 InstructGPT에서 추출된 더 나은 응답)
- 결론: 44.4%가 54.4%로 개선되었으며, 이는 더 나은 응답 품질이 모델을 크게 개선할 수 있음을 보여줍니다.
3 생성된 데이터의 크기
- 수량 GPT3의 데이터 크기: 52k 명령 데이터, 82k 인스턴스.
4 생성 데이터의 다양성
- 평가방법 1: 가장 많이 쓰이는 동사 상위 20개를 선택한 후 top4의 직접명사 목적어 분포도를 그려 전체적인 데이터 분포도를 측정한다.
- 평가 방법 2: 시드 데이터에 가장 가까운 텍스트의 Rouge-L 분포를 그리고 시드 데이터와의 분포 차이를 측정합니다.
- 결론: 다양성은 나쁘지 않은 것으로 나타났으며, 이는 생성된 데이터를 통해 모델이 따라야 할 일반적인 지침을 학습할 수 있는 이유 중 하나입니다.
5 생성된 데이터의 품질
- 통계적 지표: 200개의 명령어가 무작위로 선택되고 각 명령어에 대해 인스턴스가 무작위로 선택되어 표시됩니다.
- 지시 효율: 92%
- 입력이 지시와 일치함: 79%
- 출력이 정확함(명령 및 입력 요구 사항에 잘 응답할 수 있음): 58%
- 모든 시나리오에서 효과적: 54%
- 요약: 생성된 데이터에 여전히 오류가 있지만 대부분 정확하며 모델이 사람의 지시를 따르는 방법을 학습하는 데 유용한 지침을 제공할 수 있습니다.
3. 개인 요약
- 소량의 시드 데이터 + 원래의 사전 훈련 모델 => 대량의 다양성 생성 가능성 + 좋은 품질의 명령 데이터 => 명령을 따르는 데이터 세트 구성의 비용이 절감될 수 있다는 장점이 있습니다. 크게 감소.
- 이 기사는 대형 모델이 인간 지시의 혼란을 이해할 수 있는 이유를 설명합니다. 원래 GPT-3 모델은 많은 지식을 배웠지만 인간 지시를 따르는 능력은 매우 매우 열악함을 알 수 있습니다. 다양하고 높은 - 양질의 지침 데이터 및 답변을 통해 모델은 지침을 이해하고 지침의 특정 의미를 이해하며 인간이 기대하는 반응을 제공할 수 있습니다. 그 중 명령의 [다양성]과 응답의 [품질]은 두 가지 매우 중요한 요소입니다.
- 인간의 가치를 정렬하는 방법: 인간에게 무해한 많은 시드 데이터를 구성한 후 모델을 사용하여 많은 지침에 따른 데이터를 생성하는 복단 이끼 모델 [참조 리소스 1]을 참조할 수 있습니다. 또 다른 관점에서 보면 폭력성향 등 인간의 기대치에 미치지 못하는 답변을 생성하도록 모델을 유도하면 매우 유독한 모델을 훈련시킬 수도 있어 매우 무섭기도 하다. Microsoft의 기사에서 원래 The gpt-3.5 시리즈가 더 강력한 기능을 가질 수 있다고 말한 것은 놀라운 일이 아닙니다. 이는 OpenAI가 이와 관련하여 매우 강력한 제약을 가했음을 나타냅니다. OpenAI가 대형 모델의 규제를 강력히 권장하는 것은 당연합니다.
- GPT 공유[참조 리소스 2]의 최근 OpenAI 상태는 또한 원래 다음 단어 예측 교육의 사전 교육 LM이 유사한 질문을 구성하는 데는 능숙하지만 응답을 생성하기 위해 사람의 지시를 따르는 데는 능숙하지 않다고 언급했습니다. -트레이닝 단계도 매치 동시에 이 글은 유사한 문제를 잘 구성하는 특성을 이용하여 더 많은 명령어 데이터를 구성하는 것도 상식에 더 가깝습니다.
4. 참고 자료
- 복단 팀의 대형 MOSS 모델이 오픈 소스로 공개되었습니다. 주목할 만한 기술적 하이라이트는 무엇인가요? - Sun Tianxiang의 답변 - Fudan 팀의 대형 모델 MOSS가 오픈 소스로 공개되었다는 사실을 알고 있는데 주목해야 할 기술적 하이라이트는 무엇입니까? - 거의 안다
- https://karpathy.ai/stateofgpt.pdf
내 WeChat 공개 계정에 관심을 갖고 직접 종이 업데이트 소식을 확인하는 모든 사람을 환영합니다!