ChatGPT/InstructGPT 논문 (1)

1. GPT 시리즈

텍스트 사전 학습 기반의 GPT-1, GPT-2, GPT-3 3세대 모델은 모두 Transformer를 핵심 구조로 하는 모델(아래)이며, 차이점은 모델의 레이어 수와 길이 단어 벡터 및 기타 하이퍼파라미터 구체적인 내용은 다음과 같습니다.
GPT
채팅GPT

GPT-1은 BERT보다 몇 달 일찍 태어났습니다. 그들은 모두 Transformer를 핵심 구조로 사용합니다.차이점은 GPT-1은 왼쪽에서 오른쪽으로 사전 학습 작업을 구성한 다음 일반적인 사전 학습 모델을 얻습니다.이 모델은 BERT와 마찬가지로 다운스트림 작업에 사용할 수 있습니다. 동조. GPT-1은 당시 9개의 NLP 작업에서 SOTA 결과를 달성했지만 GPT-1이 사용하는 모델 크기와 데이터 양이 상대적으로 적어 GPT-2가 탄생했습니다.

GPT-1과 비교할 때 GPT-2는 모델 구조에 대해 호들갑을 떨지 않고 더 많은 매개변수와 더 많은 학습 데이터가 있는 모델만 사용했습니다 (위 표 참조). GPT-2의 가장 중요한 아이디어는 Prompt Learning의 전신이기도 한 "모든 지도 학습은 비지도 언어 모델의 하위 집합"이라는 아이디어입니다. GPT-2도 탄생 초기에 많은 센세이션을 일으켰고, 그것이 생성하는 뉴스는 대부분의 인간을 속이고 거짓 효과를 달성하기에 충분합니다. 당시 "AI 세계에서 가장 위험한 무기"로 알려지기까지 많은 포털은 GPT-2에서 생성된 뉴스의 사용을 금지하도록 명령했습니다.

GPT-3가 제안되었을 때 GPT-2보다 월등한 효과 외에도 더 많은 논의를 불러일으킨 것은 1750억 개의 매개변수였습니다. GPT-3가 일반적인 NLP 작업을 완료할 수 있을 뿐만 아니라, 연구원들은 예기치 않게 GPT-3가 SQL, JavaScript 및 기타 언어 코드를 작성하고 간단한 수학 연산을 수행하는 데도 뛰어난 성능을 보인다는 사실을 발견했습니다. GPT-3의 training은 Meta-learning의 일종인 In-context Learning을 사용하는데, Meta-learning의 핵심 아이디어는 적은 양의 데이터를 통해 적절한 초기화 범위를 찾아 모델이 Fast 제한된 데이터 세트에 적합하고 좋은 결과를 얻습니다 .

위의 분석에서 성능 관점에서 GPT에는 두 가지 목표가 있음을 알 수 있습니다.

  • 일반적인 NLP 작업에서 모델의 성능을 향상시킵니다.
  • 기타 일반적이지 않은 NLP 작업(예: 코드 작성, 수학 연산)에 대한 모델의 일반화 능력을 향상시킵니다.

1. 맥락 학습

과거에는 사전 훈련이 2단계 즉, 먼저 대규모 데이터 세트로 모델을 사전 훈련한 다음 다운스트림 작업의 레이블이 지정된 데이터 세트를 사용하여 여전히 기본 작업인 미세 조정을 수행했습니다. 오늘날 대부분의 NLP 모델 작업 작업 프로세스.
GPT-3는 이러한 인식을 뒤집기 시작했습니다. 상황에 맞는 학습 접근 방식을 제안합니다. 다음은 설명하는 예입니다.

用户输入到 GPT-3:你觉得 NLP 是个好用的工具吗?
GPT-3输出1:我觉得很好啊。
GPT-3输出2:NLP是什么东西?
GPT-3输出3:你饿不饿,我给你做碗面吃……
GPT-3输出4:Do you think nlp is a good tool?

논리적으로 말하면 기계 번역 작업의 경우 모델이 마지막 문장을 출력하기를 원하고 대화 작업의 경우 모델이 처음 두 문장 중 하나를 출력하기를 원합니다. 또한 사발면을 만든다는 출력 문장이 문맥에 어긋난 것 같고, 질 낮은 대화 답글임이 자명하다 .

이때 상황 내 학습이 있습니다. 즉, 모델을 안내하고 무엇을 출력할지 가르칩니다 . 번역된 콘텐츠를 출력하려면 모델에 다음 입력을 제공해야 합니다.

用户输入到 GPT-3:请把以下中文翻译成英文:你觉得 NLP 是个好用的工具吗?

모델이 질문에 답하기를 원하는 경우:

用户输入到 GPT-3:模型模型你说说,你觉得 NLP 是个好用的工具吗?

좋습니다. 그러면 모델이 사용자가 요청한 상황에 따라 대상이 지정된 답변을 제공할 수 있습니다.

여기서는 모델에게 방법을 알려주었습니다. 모델에게 시연하는 것이 가장 좋습니다. 사람들의 일상적인 작업 습관과 상당히 일치합니다. 선생님이 구성을 지정했습니다. 우리의 첫 번째 반응은 모델 구성을 참조하는 것입니다. 느낌을 알아보기 위해 .

위의 예에 데모를 추가하면 다음 입력을 얻습니다.

用户输入到 GPT-3:请把以下中文翻译成英文:苹果 => apple; 你觉得 NLP 是个好用的工具吗?=>

그 중 Apple은 데모 예제인 apple로 번역되며 모델이 무엇을 출력할지 인식하도록 하는 데 사용됩니다. 힌트만 주는 것을 제로샷, 한 가지만 주는 것을 원샷, 여러 개를 주는 것을 퓨샷이라고 합니다.

채팅GPT
몇 가지 예를 들면 충분합니다. 더 이상은 아닙니다! 하나는 라벨링된 데이터가 별로 없다는 것이고, 다른 하나는 너무 많이 주면 다시 미세조정 모드가 되지 않을까요?

GPT-3의 사전 훈련 단계에서도 이와 같은 여러 작업에 따라 동시에 학습된다. 예를 들어 "수학 덧셈, 실수 수정, 번역"을 동시에 수행합니다. 이것은 실제로 얼마 전 인기있는 프롬프트와 유사합니다.
채팅GPT
이 안내 학습 방법은 초대형 모델에서 놀라운 결과를 보여주었습니다. 하나 또는 몇 개의 데모 예제만 제공되며 모델은 고양이와 호랑이처럼 정답을 제공할 수 있습니다. 초대형 모델 에서만 가능 하며 일반적으로 수억 또는 수십억 개의 매개 변수가 있는 대형 모델은 허용되지 않습니다. (여기에는 소형 모델이 없고 대형 모델, 초대형 모델, 초대형 모델만 있습니다)

채팅
이 결과 그래프는 1,750억 개의 매개변수로 좋은 결과를 보여줍니다.

2. ChatGPT 배경 소개 (Instruct? Align? Socialization?)

InstructGPT 논문 링크
두 번째 해석: ChatGPT/InstructGPT 논문(2)

ChatGPT의 논문은 아직 발표되지 않았고, 발표 논문이 있을지는 모르겠지만, 공개된 정보에 따르면 학습 방법은 기본적으로 OpenAI의 이전 작업인 InstructGPT와 동일합니다. InstructGPT 논문에서 ChatGPT의 강력한 비밀을 엿볼 수 있습니다. 이 문서는 주로 (대략) InstructGPT 논문—인간의 피드백을 통해 지침을 따르도록 언어 모델 교육을 해석합니다.

InstructGPT와 다음 ChatGPT는 모두 대형 모델 정렬에 대한 OpenAI의 연구 결과입니다. InstructGPT 논문에서 저자는 이렇게 말했습니다.

" 예를 들어 대규모 언어 모델은 진실하지 않거나 독성이 있거나 단순히 사용자에게 도움이 되지 않는 출력을 생성할 수 있습니다. 즉, 이러한 모델은 사용자와 일치하지 않습니다. (ChatGPT 번역: 대규모 언어 모델은 거짓, 독성, 또는 사용자에게 도움이 되지 않는 출력, 즉 모델이 사용자와 일치하지 않습니다.)

즉, 모델의 출력이 우리가 기대한 것과 일치하지 않을 수 있습니다. 인간의 필요에 대한 이러한 정렬 문제는 소위 정렬 문제 입니다 . Li Hongyi 선생님의 비디오(How Chat GPT (아마도)가 정제되었음 - GPT 사회화 과정, https://www.youtube.com/watch?v=e0aKI2GGZNg )는 큰 모델과 인간의 요구 사이의 일관성을 보여줍니다. 개선 과정은 대형 모델의 "사회화" 과정이라고 합니다 . 매우 생생한 것 같아요. 대형 모델은 사전 훈련 과정에서 다양한 데이터를 보았으므로 프롬프트를 위해 무엇을 출력할 것인지, 또는 그 이상의 데이터 패턴은 사전 훈련 데이터에 나타나는 것이 인간이 모델을 사용할 때 보고 싶어하는 모든 패턴을 의미하는 것은 아니므로 모델의 "말과 행동"을 규제하기 위한 사회화 과정이 필요하다 .

예를 들어:
채팅GPT

일반적인 "계속" 모델인 GPT와 같은 자동 회귀 생성 모델의 경우 "ACL 회의의 주제는 무엇입니까? 즉, 위의 그림에서 파란색 로봇의 대답입니다. 그러나 모델의 출력은 우리가 예상한 것과 매우 다를 수 있으며 일련의 질문, 즉 그림에서 빨간색 로봇의 출력을 출력합니다. 왜? "질문 뒤에 답이 있다"든 "질문 뒤에 또 다른 질문"이 있든 훈련 말뭉치에서 자주 나타날 수 있는 패턴이기 때문에 모델이 질문에 따라 계속 쓰게 놔두면, 그런 다음 연속인지 여부 모델이 질문에 대한 답변을 작성하거나 더 많은 질문을 계속 작성하는 것이 합리적입니다 . 이것이 문제입니다. 대규모 말뭉치가 있는 사전 훈련된 모델(데이터 세트에 어떤 종류의 혼란이 있는지 아무도 모를 수도 있음)이 출력이 인간의 기대를 충족시킬 수 있습니까?

3. InstructGPT 방법

OpenAI가 정렬 문제를 처리하는 방법에 대해 직접 이야기해 보겠습니다. 논문의 그림은 이미 매우 명확합니다. 기본적
채팅
으로 복사하여 붙여넣을 수 있는 ChatGPT 교육의 흐름도도 있습니다.
채팅
쌍둥이 자매는 피드가 약간 다를 수 있으며 ChatGPT는 늦게 태어났고 가족 조건은 상대적으로 GPT-3.5부터 시작하며 InstructGPT는 GPT-3부터 계속 훈련합니다 .)

위의 세 단계를 보지 말고 이전 기사의 문제 배경 소개를 통해 스스로 생각하십시오. 모델이 인간의 기대와 일치하지 않는 문제를 어떻게 해결해야 합니까? 가장 직접적인 방법은 인간의 예상 모델을 완전히 충족시키는 대량의 데이터(사람들이 자신의 프롬프트와 예상 출력을 작성)를 인위적으로 구성한 다음 학습을 위해 모델에 전달하는 것입니다 . 그러나 이것은 분명히 너무 비쌉니다. 따라서 이 프로세스를 좀 더 쉽게 만드는 방법을 찾아야 합니다.

  • GPT-3인 초기 모델 V0을 호출합니다. 먼저 수동으로 데이터 배치를 구성하고 많은 양이 필요하지 않고 최선을 다한 다음 모델이 먼저 학습하도록 할 수 있습니다. 현재 모델은 V1입니다 .
  • 그런 다음 모델이 여러 프롬프트에 따라 출력하도록 하여 효과가 어떤지 확인합니다.모델 V1이 프롬프트에서 여러 출력을 수행하도록 한 다음 사람들에게 여러 출력에 점수를 매기고 정렬하도록 요청합니다.정렬 프로세스에도 수작업이 필요하지만 , 직접적인 것보다 효율적입니다. 사람들이 훈련 데이터를 작성하는 것이 훨씬 더 편리하므로 이 프로세스는 더 많은 데이터에 더 쉽게 레이블을 지정할 수 있습니다. 그러나 이 레이블이 지정된 데이터는 순위이기 때문에 모델을 교육하는 데 직접 사용할 수 없지만 RM(보상 모델)이라는 스코어링 모델을 교육할 수 있으며 RM의 역할은 <prompt, output> 쌍을 비교하는 것입니다. 점수를 매기고 이 출력이 프롬프트와 일치하는지 평가합니다 .
  • 다음으로, 우리는 V1 모델을 계속 훈련시키고, 몇 가지 프롬프트를 주고, 출력을 얻은 후, 프롬프트와 출력을 RM에 입력하여 점수를 얻은 다음 강화 학습 방법을 사용하여 V1 모델을 훈련하므로 반복적으로, 그리고 마지막으로 최종 InstructGPT인 V2 모델을 얻습니다 .

위의 3단계는 그림에 나타난 3단계로 교사(인간)가 먼저 일부 필수 지식을 주입한 다음 모델이 교사의 선호도를 모방하여 몇 가지 시도를 한 다음 교사가 만드는 것을 볼 수 있습니다. 모델에 대한 몇 가지 시도.스코어링, 스코어링 후 스코어링 머신을 학습하고 최종적으로 스코어링 머신이 모델과 협력하여 모델을 자동으로 반복할 수 있습니다.일반적인 아이디어는 인간 피드백을 기반으로 한 강화 학습, RLHF라고 합니다 .

그런 방법을 실현하기 위해서는 모델 자체가 상대적으로 강력하다는 전제가 있다고 생각합니다. 모델 자체가 상대적으로 강력할 때만 인간은 모방을 시작할 수 있는 소량의 필수 데이터를 제공할 수 있으며 동시에 인간이 두 번째 단계에서 점수를 매길 수 있는 더 합리적인 결과를 생성할 수 있습니다 . 따라서 여기에서 GPT-3는 이 프로세스 집합이 작동할 수 있다는 보장 중 하나인 시작점이며 ChatGPT는 GPT-3.5에서 시작하므로 효과가 확실히 더 좋아질 것입니다.

InstructGPT 논문에서는 위의 세 단계가 제공되고 제조/표시되는 샘플 수는 다음과 같습니다.

  • SFT 데이터 세트(즉, 인간이 프롬프트에 따라 이상적인 출력을 작성하는 첫 번째 단계, SFT: 감독된 미세 조정)에는 13K 프롬프트가 포함되어 있습니다 .
  • RM 데이터 세트(즉, 두 번째 단계에서 채점 모델을 교육하는 데 사용되는 데이터)에는 33K 프롬프트가 포함됩니다 .
  • PPO 데이터 세트(즉, 세 번째 단계에서 강화 학습 PPO 모델을 교육하는 데 사용되는 데이터)에는 31K 프롬프트가 포함됩니다 .

처음 두 단계에 대한 프롬프트는 OpenAI 온라인 API의 사용자 사용 데이터와 고용된 주석자가 손으로 쓴 데이터에서 나옵니다. 마지막 단계는 모두 API 데이터에서 샘플링됩니다. 다음 표의 특정 데이터:
채팅
합계는 최대 77K 데이터이며 그중 46K만 수동 작업과 관련됩니다. 정말 별로! 즉, GPT-3는 계속해서 77K 데이터를 미세 조정한 다음 InstructGPT를 얻었습니다.

초기 시드 데이터 세트는 어노테이터가 API 데이터에서 샘플링하는 대신 프롬프트를 작성해야 합니다. 이는 API 인터페이스의 대부분의 프롬프트 데이터가 "인간이 모델에 요청하는" 일종의 지시와 같은 프롬프트가 아니기 때문입니다. , 대부분 그 중 연속 등은 이 기사의 시작점과 약간 일치하지 않습니다. 모델이 사람의 요구 사항에 따라 작업을 수행할 수 있기를 바라므로 주석 작성자가 즉석에서 작성해야 합니다. 구체적으로, 이러한 어노테이터는 세 가지 유형의 데이터를 작성하도록 요청받았습니다.

  • 플레인: 머리를 쓰다듬고 몇 가지 프롬프트를 생각하면서 동시에 작업의 다양성을 최대한 확보하십시오. (예를 들어 "제발 농담 좀 해주세요", "이 문장을 독일어로 번역해주세요", "마르코프 체인이란 무엇인가요?" 등 다양한 질문과 요구 사항을 부담 없이 작성하세요)
  • Few-shot: 프롬프트를 작성해야 할 뿐만 아니라 해당 출력도 작성해야 합니다. (이 부분이 가장 노동 집약적이어야 하며 SFT 데이터의 주요 구성 요소이기도 합니다.)
  • 사용자 기반: OpenAI 사용자가 OpenAI가 미래에 제공할 수 있기를 바라는 서비스에 대한 대기자 명단이 있으며, 이러한 주석 작성자는 대기자 명단의 작업에 따라 몇 가지 프롬프트를 작성합니다. (어노테이터에게 알려주는 것과 동일, 사용자가 기대하는 기능이 무엇인지 알 수 있고 참고용으로 사용할 수 있음)

다음 표는 OpenAI 고객의 일상적인 사용, 즉 API 데이터의 분포를 나타낸 표입니다(이것도 RM 데이터셋의 대략적인 분포입니다). 논문에서 찾은
채팅
RM의 분포와는 사뭇 달라야 하고, 데이터 품질면에서 이 부분이 최고 품질이어야 한다고 생각합니다. 혹시 영업비밀일까요?) 이상은 InstructGPT의 방법론
과 모두가 가장 걱정하는 데이터 수집 프로세스. 모델을 훈련시키는 방법은 중요하지 않습니다.결국 99.99%의 사람들은 GPT-3.5는 물론 GPT-3도 훈련할 수 없습니다. 하지만 여기서 정말 짚고 넘어가야 할 것이 있는데, 스코어링 모델(RM 모델)도 GPT-3을 기반으로 6B 버전을 사용하여 학습을 하게 되는데, 구체적으로 SFT 학습 후 최종 임베딩 레이어를 제거하고 Outputs로 변경한다. (점수) 스칼라.

4. InstructGPT 작업의 주요 결론

사실 그 효과에 대해 많이 말할 필요는 없습니다.모두 ChatGPT가 얼마나 강력한지 이미 잘 알고 있으며 InstructGPT도 실제로 비슷합니다. 최종 결론은 "명령 듣기" 측면에서 InstructGPT의 1.3B 버전이 자체보다 100배 더 큰 GPT-3의 175B 버전을 능가할 수 있다는 것입니다. 다음은 예입니다
채팅
.
채팅

일반적으로 이 글은 OpenAI가 어떻게 야생 자식인 GPT-3를 인간의 명령을 듣도록 훈련시켰는지 소개하는 것이고, 이 훈련 비용은 그리 크지 않습니다. 77K의 데이터가 미세 조정에 사용되었으며 언급할 가치가 거의 없습니다. 결국 InstructGPT로 생성된 결과는 진정성, 무해성 및 유용성 측면에서 크게 개선되었습니다(그러나 편견의 문제는 여전히 개선되지 않았습니다).

또한 많은 연습을 통해 저자 팀은 다음과 같은 중요한 결론을 요약했습니다.

  • 이러한 종류의 "튜닝"은 저자가 "정렬 세금"-정렬 세금(사실, 많은 이전 연구에서 이 문제를 발견함)이라고 부르는 일반적인 NLP 작업에 대한 모델의 영향을 줄일 것입니다. 그러나 사전 훈련 과정에서 RLHF를 혼합하는 방법과 같이 RLHF 과정을 개선하여 .
  • 일반적인 공개 NLP 데이터 세트는 인간이 실제로 언어 모델을 사용하는 장면과 매우 다릅니다. 따라서 공개 NLP 데이터 세트에서 단순히 미세 조정 명령만으로는 여전히 충분하지 않습니다.
  • 인간의 주석은 가능한 모든 프롬프트를 포함하는 것과는 거리가 먼 수십 K에 불과하지만 InstructGPT는 강력한 도메인 외부 일반화 능력을 가지고 있으며 아직까지 적용되지 않은 프롬프트 유형에 대해 상대적으로 우수한 일반화 능력을 가지고 있음이 실험에 의해 밝혀졌습니다. 전에 본.
  • 혁명은 아직 성공하지 못했고 InstructGPT는 여전히 실수를 할 것이며 여전히 무작위적이고 장황하고 불순종하는 명령을 만들고 흑백을 무시할 수 있습니다. . . ChatGPT를 테스트한 학생들은 ChatGPT도 이 문제를 피할 수 없다는 것을 알아야 합니다. 따라서 InstructGPT와 ChatGPT는 사람들이 큰 희망과 큰 어려움을 볼 수 있도록 문을 열었습니다.우리가 해결해야 할 많은 도전적인 문제가 여전히 기다리고 있습니다.

V. 요약

문제: 모델이 출력한 여러 결과가 인간의 요구와 일치하지 않지만 모델은 출력 결과가 합리적이라고 믿습니다.
솔루션 단계:

  1. 미세 조정 GPT3: 먼저 데이터 배치를 수동으로 구성하고(Prompts에 따라 출력 결과에 수동으로 레이블 지정, 13K) 원래 GPT3를 미세 조정하여 모델 V1을 얻습니다.
  2. RM 채점 모델: 미세 조정된 GPT3 V1 모델은 다수의 프롬프트에서 다중 출력을 수행하고 동시에 사람이 각 프롬프트(33K)의 다중 출력을 채점하고 정렬하여 < 프롬프트, 출력> pair RM (첫 번째 단계에서 미세 조정 후 6B GPT3 모델의 최종 임베딩 레이어를 제거하고 학습용 스코어링 스칼라를 출력하도록 변경).
  3. PPO 훈련: 명령어 라이브러리에서 일부 Promtps를 선택하고 첫 번째 단계에서 미세 조정된 GPT3 모델을 입력하고 여러 출력 결과를 얻은 후 프롬프트 및 출력을 RM 모델에 입력하여 채점한 다음 강화 학습 PPO 방법을 사용합니다. 최종 모델 출력 결과가 인간의 요구 사항을 충족하도록 V1 모델 교육, 반복 반복을 계속하여 InstructGPT를 얻습니다.

6. 참조 링크

  1. OpenAI는 어떻게 GPT를 "악마 조정"합니까? ——InstructGPT 논문의 해석
  2. ChatGPT/InstructGPT에 대한 자세한 설명
  3. 한 기사에서 ChatGPT 모델의 원리를 읽어보세요.

Supongo que te gusta

Origin blog.csdn.net/flyingluohaipeng/article/details/129876984
Recomendado
Clasificación