【GPT-4 이론-1】GPT-4의 핵심 기술 탐색 | JD Cloud 기술팀

머리말

GPT-4는 공개된 지 꽤 되었지만, 보안 등 여러 가지 이유로 OpenAI는 GPT-4의 기술 세부 사항과 코드를 공개하지 않고 100페이지 분량의 기술 보고서[1]만 제공했습니다.

이 기술 보고서는 GPT-4의 강점에 초점을 맞추고 몇 가지 기술 방향에 대한 개요만 제공하므로 기술 세부 사항을 이해하려는 우리에게는 충분하지 않습니다.

이 기사에서는 GPT-4의 기술 보고서, GPT 3.5/ChatGPT 대비 GPT-4의 개선 사항, GPT-4와 ChatGPT의 비교, 대규모 언어 모델(Large Language)인 OpenAI의 최근 작업을 결합합니다. 모델, LLM) 모델 GPT-4의 과학 연구 진행 상황, 다중 모드 모델의 과학 연구 진행 상황 및 기타 정보, GPT-4의 기술 세부 사항에 대한 심층 분석.

GPT-4가 이를 수행한다는 명확한 증거가 없기 때문에 여기서는 주로 OpenAI가 GPT-4의 이러한 기능을 달성하기 위해 사용할 수 있는 기술에 대해 논의합니다. 따라서 내 추측이 틀렸다면 독자들이 의견 영역에서 토론하는 것을 환영합니다. 다음으로 Sherlock Holmes가 되어 GPT-4의 원리를 분석해 보겠습니다.

1. GPT-4 개선

GPT-4는 ChatGPT를 기반으로 반복됩니다.여기서는 ChatGPT의 원리에 대해 자세히 설명하지 않겠습니다.이해가 필요한 경우 "ChatGPT/InstructGPT 상세 설명" 기사에서 소개하겠습니다. 이 기사에서는 먼저 GPT-4가 ChatGPT와 비교하여 어떤 개선 사항이 있는지, 즉 GPT-4가 ChatGPT와 비교하여 어떤 기능적 개선 사항이 있는지 논의합니다. 다음으로 이러한 개선을 달성하기 위해 OpenAI가 GPT-4에 적용했을 수 있는 기술에 대해 논의합니다. 마지막으로 다른 대규모 언어 모델과 GPT-4 사용에 대한 몇 가지 생각에 대해 논의합니다.

1.1 제로샷, 퓨샷 학습 능력

텍스트 생성에 GPT-4를 사용할 때 GPT-4가 다양한 까다로운 질문에 거의 완벽하게 답할 수 있다는 사실에 놀라울 것입니다. 이는 GPT-4가 매우 강력한 비지도 학습 기능을 가지고 있음을 보여줍니다.

또한 GPT-4 기술 보고서는 일부 시나리오에서 감독 SOTA 방법에 접근하거나 초과하는 많은 비지도 학습 예제를 제공합니다. 예를 들어 HumanEval[3]의 코드 생성 데이터 세트에서는 유명한 코드 생성 도구 CodeX[3]를 능가합니다. 또한 GPT-4는 정확성을 평가하는 질문 답변 데이터 세트 TruthfulQA[26]에 대해 SOTA의 Anthropic-LM[4]에 접근합니다.

1.2 논리적 추론 능력

GPT-4의 기술 보고서는 그림 1과 같이 많은 학업 시험에서 ChatGPT보다 향상된 점을 강조합니다. 학업 평가는 GPT-4가 ChatGPT보다 논리적 추론 능력이 더 강하다는 것을 반영합니다. @越玉涛Max는 19문항[2]을 통해 GPT-4와 ChatGPT의 논리적 추론 문제를 수평적으로 비교했는데, 그 중 ChatGPT의 정답률은 37%, GPT-4의 정답률은 100%이다.비교에서 예를 들어 GPT-4가 논리적 추론에서 질적 도약을 가지고 있음을 분명히 알 수 있습니다.

그림 1: 많은 학업 시험에서 GPT-4와 ChatGPT 점수 비교

여기서도 간단한 논리적 추론 문제를 발견했는데, 이 다리 건너기 예제에서 ChatGPT가 다리 건너기 시퀀스를 주었지만 시간 계산이 잘못되었고 GPT-4가 이 문제를 간단하고 명확하게 해결했음을 알 수 있습니다.

질문: 4명이 다리를 건너다 ABCD. 한 번에 최대 2명이 다리를 건널 수 있습니다. 손전등은 17분 동안 지속될 수 있습니다. 각 사람에게 필요한 시간은 각각 1, 2, 5, 10입니다. 얼마나 걸리는지 알아보십시오. 다리를 가장 빨리 건너는 데 걸릴 수 있습니까?

ChatGPT: 4명이 최대한 빨리 다리를 건너려면 가장 느린 사람이 최대한 빨리 다리를 건너게 해야 합니다. 따라서 우리는 가장 느린 두 사람 A와 B가 먼저 다리를 건너게 한 다음 A가 돌아가게 한 다음 두 번째로 느린 사람 C와 D가 다리를 건너게 하고 마지막으로 B를 다시 돌려 보내 건너는 전체 과정을 완료할 수 있습니다. 다리 .

특히 다음 단계를 따를 수 있습니다.

A와 B가 다리를 건너는 데 10분이 걸립니다.

A가 돌아오고 1분이 걸립니다.

C와 D가 다리를 건너면 5분이 걸립니다.

B는 2분만에 돌아옵니다.

A와 B가 다리를 건너는 데 10분이 걸립니다.

따라서 소요된 총 시간은 10 + 1 + 5 + 2 + 10 = 28분입니다. 다리를 건너는 데 걸리는 시간이 가장 빠릅니다.

GPT-4 : 네 사람 모두 ABCD가 가능한 한 빨리 다리를 건너게 하기 위해 다음과 같은 전략을 채택할 수 있습니다.

A와 B는 2분 안에 함께 다리를 건넙니다.

A가 돌아오고 1분이 걸립니다.

C와 D는 함께 다리를 건너며 10분이 소요됩니다.

B는 2분만에 돌아옵니다.

A와 B는 2분 안에 함께 다리를 건넙니다.

총 시간: 2 + 1 + 10 + 2 + 2 = 17분.

따라서 17분 만에 모든 사람이 다리를 건너게 할 수 있습니다.

1.3 다이어그램을 이해하는 능력

GPT-4의 주요 개선점은 다중 모드를 포함하는 것입니다.GPT-4의 이미지 인터페이스가 아직 공개되지 않았기 때문에 여기에서 GPT-4의 기술 보고서에 제공된 예를 차용합니다. 그림 2에서 GPT-4는 VGA 포트와 Lightning 포트의 불일치를 정확하게 이해할 수 있습니다. 이 예는 GPT-4가 단순히 이미지의 내용을 이해하는 것이 아니라 이미지의 특정 지점을 인식할 수 있다는 것이 가장 강력한 점임을 보여줍니다.

그림 2: GPT-4에는 강력한 그래프 및 테이블 이해 기능이 있습니다.

1.4 안전한 텍스트 생성 기능

GPT-4의 기술 보고서는 이전 모델과 동일한 보안 문제에 중점을 두지만 GPT-4의 보안이 크게 향상되었습니다. 기술 보고서에 따르면 ChatGPT는 GPT-4보다 유해한 콘텐츠를 생성할 가능성이 약 10배 더 높습니다. 그림 3은 초기 GPT-4와 성숙한 GPT-4에 의해 생성된 많은 수의 콘텐츠를 위험 프롬프트와 함께 예시합니다.성숙한 GPT-4의 위험이 크게 감소했음을 알 수 있지만 이것이 GPT-4가 완전히 무해한 나쁜 모델.

그림 3: 생성된 콘텐츠의 보안에 대한 초기 GPT-4 및 성숙한 GPT-4의 예

GPT-4는 모델의 안전성을 확보하기 위해 많은 노력을 기울였습니다. 첫째, 서로 다른 방향에서 50명 이상의 도메인 전문가를 고용하여 대결 테스트와 레드 팀 테스트를 수행했습니다. 둘째, 규칙 기반 보상 모델(Rule -Based Reward Models, RBRMs) 모델의 학습을 지원합니다. 이 부분의 구현 세부 사항은 나중에 자세히 설명하겠습니다.

1.5 강력한 프로그래밍 능력

GPT-4의 기술 보고서에서 또 다른 중요한 비교 항목은 LeetCode에서 그것과 ChatGPT 간의 코드 생성 기능으로 쉽고, 중간이며, 어렵습니다. 감독되지 않은 경우 HumanEval 데이터 세트에 대한 GPT-4의 평가 정확도가 ChatGPT의 48.1%에서 67.0%로 향상되었습니다. GPT-4의 기술 보고서에 따르면 ChatGPT는 LeetCode의 166개 프로그래밍 질문 중 20개만 답변한 반면 GPT-4는 55개를 올바르게 답변했다고 지적했습니다. 표 1은 LeetCode의 166개 프로그래밍 질문에서 GPT-4 및 ChatGPT의 구체적인 분포입니다.

GPT-4 GPT-4(비전 없음) 채팅GPT
LeetCode(쉬움) 31 / 41 31 / 41 12 / 41
릿코드(중간) 21 / 80 21 / 80 8 / 80
LeetCode(하드) 3 / 45 3 / 45 0 / 45

표 1: LeetCode 프로그래밍 질문에 대한 GPT-4 및 ChatGPT의 성능

1.6 다른 언어를 다루는 능력

GPT-4는 영어와 비영어권 모두에서 크게 향상되었으며 대부분의 언어에서 영어로 된 ChatGPT의 성능을 능가했습니다. 여기서 ChatGPT와 GPT-4는 "Let the Bullets Fly"에서 Mr. Tang에게 응답합니다. "바람이 있어야 하고, 고기가 있어야 하고, 냄비가 있어야 하고, 안개가 있어야 하고, 미인이 있어야 하고, 당나귀가 있어야 한다!" 두 시를 비교해 보면 ChatGPT는 문학적 재능이 별로 없는 현대 시처럼 보이는 반면, GPT-4에서 생성된 콘텐츠는 처음 두 곳의 단어 수가 과도하다는 점을 제외하고는 기본적으로 한시와 비슷하며 어느 정도 운율.

채팅GPT:

바람이 불고 고기 냄새가 넘칩니다
냄비에 김이 나고 안개가 오래갑니다 미녀 는 우아
하고 매력적이며 당나귀는 행복하게 달리고 있습니다
독특한 그림 두루마리입니다. 사람들 은 침을 흘리고 , 안개는 공기를 가득 채우고, 사람들을 신비롭게 만들고, 미녀의 얼굴은 사람들을 취하게 만들고 , 당나귀의 쾌활함은 사람들로 하여금 삶의 활력을 느끼게 하며, 이것은 사람들을 매료시키는 활력이 넘치는 사진입니다.





GPT-4:

구불 구불 한 바람이 계류에 부는 바람에
전골 샤브샤브가 금상첨화입니다.
요리 연기가 안개 속에서 웅크 리고
미녀와 당나귀가 함께 헤엄칩니다.

미녀는 당나귀의 등을 가볍게 쓰다듬으며
걱정과 세상을 날려버린다.
연지를 가지고 놀고 웃고 취한
당나귀는 노래를 부르며 산 밖으로 돌진한다.

타오르는 붉은 버섯을 데우고
고추 쇠고기를 물에 끓입니다.
원앙 훠궈는 노래하고 웃고,
시간은 흐르고 꿈속에 머문다.

안개가 먼지의 운명을 씻어내고
야자 비옷과 chaifei가 위험에 처했습니다.
당나귀의 발굽은 천하의 관습을 짓밟고
페이홍의 발굽은 영광을 남긴다.

1.7 더 긴 시퀀스를 처리하는 기능

ChatGPT가 처리할 수 있는 가장 큰 시퀀스는 4K 토큰이며 OpenAI는 8k와 32k의 두 가지 모델을 열었으며 각 한자는 약 2~2.5 토큰을 차지합니다. GPT-4의 토큰은 지침 및 응답에 따라 가격이 책정됩니다.(표 2) 32k의 가격은 8k의 두 배입니다.ChatGPT의 1000 토큰당 $0.02와 비교할 때 GPT-4는 약 15배 더 비쌉니다.

모델 즉각적인 완성
8K 컨텍스트 $0.03 / 1K 토큰 $0.06 / 1K 토큰
32K 컨텍스트 $0.06 / 1K 토큰 $0.12 / 1K 토큰

표 2: GPT-4 요금 세부정보

GPT-4의 더 많은 기능 탐지는 Microsoft Redmond Research의 기계 학습 이론 그룹 책임자인 Sébastien Bubeck의 최신 155페이지 기사[25]에서 광범위하게 논의되었습니다.

그들은 GPT-4가 텍스트 생성 모델의 이론적인 성능을 훨씬 뛰어넘는 성능을 보여주었고, 일반 인공지능(AGI)의 불꽃을 점화시키는 불꽃이 되었다고 지적했다. - 해결, 추상적 사고, 복잡한 아이디어의 이해, 빠른 학습 및 경험을 통한 학습 능력.


2. GPT-4 기술 솔루션 추측

우리가 발견한 이러한 GPT 개선 사항을 통해 LLM의 현재 진행 상황과 OpenAI 작업을 결합하여 GPT-4의 가능한 기술 솔루션을 추측할 수 있습니다. 우리는 추측을 하기 위해 게시된 알고리즘에만 의존할 수 있기 때문에 OpenAI가 공개되지 않은 알고리즘을 솔루션으로 사용하는 것을 배제하지 않으므로 내 추측이 틀렸다면 여러 독립적인 알고리즘을 학습했다고 가정할 수 있습니다.

  1. 제로샷 및 퓨샷 학습 능력: 이러한 개선의 이론적 근거는 대형 모델의 출현 능력(emergent ability) 때문일 가능성이 높습니다[5].
  2. 논리적 추론 능력: 대형 모델의 사고 사슬(Chain of Thought, CoT)[6]과 자기 개선 능력(Self-Improve ability)[7]을 사용;
  3. 이미지 이해 능력: OpenAI의 유명한 다중 모드 모델 CLIP[8] 또는 Microsoft의 다중 모드 모델 KOSMOS-1[12]을 사용하는 것으로 추측됩니다.
  4. 더 안전한 텍스트 생성 기능: 기술 보고서의 이 부분에서는 주로 전문가 테스트, 환각 감지 및 RBRM을 소개합니다.
  5. 더 강력한 프로그래밍 능력: 이 부분은 OpenAI의 유명한 코드 생성 모델인 CodeX를 사용하는 것으로 추측됩니다.
  6. 다른 언어를 다루는 능력: XLM[9]과 같은 교차 언어 사전 훈련 모델의 아이디어를 차용했거나, 창발 능력이 다른 언어에서 GPT-4의 성능을 강화하기 때문이라고 추측됩니다.
  7. 더 긴 시퀀스 처리 능력: 이 부분은 긴 입력을 처리하는 Transformer-XL[10] 모델이나 긴 데이터의 복잡성을 줄일 수 있는 OpenAI에서 제안한 Sparse Transformer[11]를 사용하는 것으로 추측됩니다.

아래에서 우리는 추측의 근거와 이러한 추측의 기술에 대한 간략한 소개를 소개합니다.

2.1 긴급 기능

Emergent 능력은 LLM이 돌파구를 만들기 위한 가장 중요한 핵심 기술로, Emergent 능력은 학습 과정에서 일부 고급이고 복잡한 기능이나 동작을 자동으로 학습하는 모델을 말하며 이러한 기능이나 동작은 직접 인코딩되거나 지정되지 않습니다.

이 기능은 모델을 재훈련하거나 수정하지 않고도 새로운 기능이나 동작을 적응적으로 학습할 수 있기 때문에 새롭고 알려지지 않은 작업을 처리할 때 모델의 성능을 향상시킬 수 있습니다. 그림 4는 GPT-3를 포함한 많은 LLM이 매우 강력한 출현 기능을 보여주었다는 것을 보여줍니다. 즉, 모델의 매개변수가 특정 지표를 돌파할 때 성능이 빠르게 향상됩니다. 여기서 우리는 GPT-4의 제로샷 및 퓨샷 학습 기능이 대형 모델의 창발적 기능에서 파생된다는 결론을 내릴 수 있습니다.

모델의 새로운 능력은 주로 다음과 같은 네 가지 사항에 따라 달라집니다.

  • 모델의 많은 수의 매개변수
  • 모델의 아키텍처;
  • 고품질 훈련 데이터;
  • 고급 교육 전략.

그 중 모델의 파라미터 수량은 가장 중요한 요소입니다.

그림 4: GPT-3과 같은 많은 대형 모델은 여러 작업에서 새로운 기능을 시연했습니다.

2.1.1 모델 매개변수 수량

GPT-4의 매개변수 수는 모두가 논의하는 주제인데 GPT-4가 ChatGPT보다 강력하고 추가적인 이미지 코딩 모듈이 있다는 점을 고려할 때 GPT-4의 매개변수 수는 ChatGPT보다 작을 수 없습니다. 그림 5는 ChatGPT Turbo의 각 토큰에 대한 예상 시간과 ARK Invest의 GPT-4 통계를 보여줍니다. 여기서 GPT-4의 시간은 ChatGPT의 약 4배입니다. 그리고 GPT-4는 모델의 추론 속도를 높이기 위해 몇 가지 전략을 사용할 가능성이 있으므로 GPT-4의 텍스트 모델 매개변수 부분은 약 1000억 수준이지만 수조에 매우 가깝습니다.

OpenAI 논문에 따르면 GPT-4가 이미지 인코딩에 CLIP을 사용하는 경우 현재 가장 큰 이미지 인코더는 64배 확대된 잔여 네트워크이므로 GPT-4의 이미지 인코딩은 약 16억 개입니다. 물론 GPT-4가 다른 이미지 코딩 구조를 사용한다는 것을 배제할 수는 없습니다.예를 들어 Transformer를 사용하는 KOSMOS-1[12]이 좋은 선택입니다. 공개되는 내용..

그림 5: ARK Invest의 통계에 따라 각 토큰을 예측하는 ChatGPT 및 GPT-4의 비율

2.1.2 모델의 아키텍처

우리가 확신할 수 있는 것은 GPT-4의 기술 보고서에서 GPT-4가 트랜스포머 기반 아키텍처를 채택한다는 점입니다. 즉, 코어 아키텍처는 여전히 GPT 시리즈의 디코더 전용 구조를 채택하고 있습니다. GPT-4 모델의 내부 세부 사항에 대해서는 많은 점을 확인할 수 없지만 GPT-4의 속도와 긴 텍스트 처리 능력을 고려할 때 내부 구조는 다음 두 가지 가능성이 있습니다.

  1. GPT-4는 긴 텍스트의 기능을 크게 향상시키기 때문에 Transformer-XL 또는 Sparse Transformer를 사용할 가능성이 있습니다.
  2. GPT-4는 ChatGPT를 기반으로 반복될 가능성이 높기 때문에 여전히 원래 Transformer를 사용하고 레이어 수, 헤드 수 및 숨겨진 레이어 노드 수를 늘릴 수 있습니다.

GPT-4도 이미지 입력을 지원하기 때문에 이미지 인코딩에 대한 부분이 있을 텐데요, 2.3절에서 자세히 설명하겠습니다.

2.1.3 교육 전략 및 교육 데이터

GPT-4는 기본적으로 ChatGPT와 동일한 교육 전략을 유지합니다. 즉, 그림 6과 같이 기본적으로 사전 교육 + 프롬프트 + 예측의 패러다임을 따릅니다. 여기에서는 주로 GPT-4의 개선 사항을 소개하며 세 가지 주요 사항이 있습니다.

  • 규칙 기반 보상 모델(Rule Based Reward Model, RBRM)을 도입했습니다.
  • 다중 모드 힌트 학습을 도입했습니다.
  • 생각의 사슬이 소개됩니다.

그림 6: ChatGPT의 모델 학습 단계

1. RBRM

GPT-4의 첫 번째 개선 사항은 RBRM의 도입입니다. RBRM은 규칙에 따라 작성된 4가지 범주 모델입니다. 네 가지 범주는 다음과 같습니다.

  • 원하는 패턴의 거부;
  • 예상치 못한 스타일 거부;
  • 허용되지 않는 콘텐츠를 포함합니다.
  • 안전하고 거부되지 않는 응답.

GPT-4는 그림 6의 3단계 PPO 단계에서 사용되었습니다. 모델의 보안을 개선하기 위해 ChatGPT는 3단계에서 RLHF(Reinforcement Learning with Human Feedback)를 사용하여 모델을 훈련합니다. ChatGPT 데이터의 이 부분은 GPT-3 API 사용자로부터 가져오고 GPT-4는 올바른 보상 안내 모델 교육을 통해 유해한 요청 생성을 거부하고 무해한 요청을 거부하지 않기 위해 여기에 RBRM을 추가합니다.

NLP 모델을 구축하기 위해 규칙을 사용하는 것은 오랜 역사를 가지고 있습니다.사실 NLP의 초기 모델은 규칙 기반 모델이었고, 확률 기반 모델과 신경망 기반 모델이 그 뒤를 이었습니다.

예를 들어 Shannon은 언어의 자동화를 설명하기 위해 이산 마르코프 프로세스의 확률 모델을 사용했으며, 우리가 자주 사용하는 정규식은 일반적인 규칙 기반 텍스트 모델입니다. 규칙 기반 모델의 장점은 훈련 데이터가 필요하지 않다는 점이지만 단점은 종종 규칙을 설계하는 데 도메인 전문가가 필요하고 특정 분야의 문제만 해결할 수 있다는 것입니다. 여기서 RBRM은 도메인 전문가가 설계했으며 정규식 및 유한 상태 머신과 같은 일련의 텍스트 규칙으로 작성된 제로 샘플 분류기라고 생각합니다.

규칙 기반 강화 학습도 최근 많이 언급되고 있는데, 강화 학습의 중요한 최적화 목표는 검색 공간의 범위를 줄이는 것이며, 이 작업은 규칙의 제약 하에서 수행될 수 있습니다. 규칙에 의해 제약을 받은 후 강화학습을 통해 남은 공간에서 검색을 하게 되면 강화학습의 검색 공간을 줄이고 효과적으로 수렴 속도를 향상시킬 수 있습니다. GPT-4의 RBRM 작동 원리는 그림 7에 대략적으로 나와 있습니다.

그림 7: RBRM 작동 방식

2. 복합 프롬프트 학습

GPT-4는 멀티모달 기능의 기술적 세부 사항을 자세히 설명하지 않으며 그래픽 인터페이스는 공개 베타용으로 공개되지 않습니다. 하지만 멀티모달 분야에서 GPT-4의 보고서에서 유사한 작업이 있는지 확인할 수 있습니다. 공교롭게도 올해 초 Microsoft에서 발표한 KOSMOS-1[12]은 매우 강력한 다중 모드 QA 기능을 가지고 있으며 그 생각은 GPT-4와 매우 유사합니다. 다중 모드 프롬프트에 대한 유사한 접근 방식입니다.

KOSMOS-1은 텍스트 생성, 이미지 설명(이미지 캡션) 생성 및 다중 모드 QA의 세 가지 유형의 데이터 세트를 지원합니다.그림 8은 이미지 설명 생성 및 QA 생성에서 KOSMOS-1의 예입니다. 그림 8.(a)의 이미지 설명 생성에서 모델의 입력은 이미지의 임베딩이고 출력은 예측된 이미지 설명입니다. 그림 8.(b)의 다중 모드 QA에서 KOSMOS-1은 이미지 임베딩과 텍스트 임베딩을 모두 입력으로 사용하여 질문에 대한 답변을 예측하는 데 사용됩니다.

그림 8: KOSMOS-1에 대한 다중 모드 입력의 예

3. 생각의 사슬

GPT-4는 ChatGPT보다 논리적 추론 능력이 월등히 강하며, 모델을 훈련할 때 사고 사슬 방식을 사용하여 신속한 샘플을 구성해야 합니다. Thinking Chain은 일반 텍스트 입력뿐만 아니라 그래픽 및 텍스트의 다중 모드 입력을 지원합니다.이 중요한 내용을 소개하는 섹션을 사용하겠습니다.

4. 능력예측

특정 작업에 대해 모델을 교육할 때 모델의 기능 예측(Capability Prediction)인 이 작업에 대한 모델의 최종 성능을 예측할 수 있기를 원합니다. 자연어 처리 및 대규모 언어 모델 분야에서 능력 예측은 일반적으로 특정 작업, 도메인 또는 장면에서 모델의 성능 능력을 예측하고 평가하는 것을 의미합니다.

공정 능력 예측의 목적은 모델을 최적화, 조정 또는 개선하기 위해 모델의 성능을 더 잘 이해하는 것입니다. 모델의 능력 예측을 통해 모델의 강점과 한계를 더 잘 이해할 수 있으며, 이는 모델의 추가 개발 및 개선을 위한 귀중한 피드백을 제공할 수 있습니다. GPT-4는 또한 훈련 중에 능력 예측을 사용하므로 모델의 효과를 보다 정확하게 평가하고 훈련 비용을 절약할 수 있습니다.

2.2 논리적 추론 능력

GPT-4의 추론 능력을 향상시키기 위해 OpenAI는 최근 몇 년 동안 LLM의 매우 중요한 사고 사슬과 자기 개선 능력을 사용할 가능성이 높습니다. 논리적 추론 능력 측면에서 힌트 학습의 목표 최적화라고 볼 수 있으며, 아래에서 별도로 소개하도록 하겠습니다. GPT-4 기술 보고서에서 많은 GPT-4 교육이 일련의 사고 또는 자기 개선의 증거를 사용한다는 것을 알 수 있습니다.

2.2.1 사고 사슬

생각의 사슬은 사람들이 생각할 때 특정 관점, 아이디어 또는 인지된 자극에 의해 발생하는 일련의 관련 사고 연관성 및 연관성을 말합니다. 이러한 연관성은 사람의 기억, 경험, 지식, 감정, 의식 등을 통해 구축되고 강화될 수 있으며, 최종적으로 유기적인 사고 사슬을 형성하여 사람들이 문제를 이해하고 해결하며 의사 결정 및 행동을 하도록 돕습니다. 사고의 사슬은 사람의 사고 방식, 사고 습관 및 사고 효율성을 반영하는 인간 사고 활동의 중요한 부분입니다. 사고의 사슬을 구축하고 강화함으로써 사람들이 사물의 본질과 법칙을 더 잘 이해하고 파악하고 문제를 해결하고 더 효과적으로 결정을 내릴 수 있도록 도울 수 있습니다.

인공 지능 분야에서 연구자들은 기계 학습 및 자연어 처리와 같은 기술을 사용하여 인간의 사고 사슬을 시뮬레이션하고, 기계 사고 사슬을 구축하고, 기계가 인간의 언어와 행동을 더 잘 이해하고 처리하도록 돕고, 더 많은 지능형 애플리케이션을 달성하는 방법을 모색하고 있습니다. 및 시스템. OpenAI의 논문[6]은 사고사슬의 방향성에 큰 의미가 있는 글이며 GPT-4가 사용할 가능성이 있는 기술적 솔루션이기도 하다. 신속한 추론 능력. 생각의 사슬도 창발적 능력으로, 적은 수의 샘플만 제공함으로써 모델의 논리적 추론 능력을 크게 향상시킬 수 있다.

생각 사슬과 전통적인 프롬프트 학습의 차이점은 프롬프트에 추론 프로세스가 추가되고 입력, 사고 사슬 및 출력으로 구성된 삼중 항이 구성된다는 것입니다. 그림 9는 전통적인 프롬프트와 사고 사슬 프롬프트의 예입니다.

그림 9: 전통적인 프롬프트 학습 및 사고 사슬 프롬프트 학습 사고 사슬은 모델이 추론 능력을 학습하는 데 도움이 되도록 입력에 추론 프로세스를 제공합니다.

사고 사슬도 다중 모달 입력을 지원하며 GPT-4 기술 보고서에서도 GPT-4가 다중 모달 사고 사슬을 사용한다고 지적했습니다. 그림 13의 GPT-4 예는 모델이 사고 사슬을 사용하여 훈련되기 때문에 추론을 포함하는 고전적인 예측 결과입니다. 그림 10은 최근 Shanghai Jiaotong University와 Amazon에서 발표한 다중 모드 사고 사슬의 프레임워크입니다: Multimodel-COT [14].

2단계로 구성되며, 2단계는 매개변수를 공유합니다. 첫 번째 단계에서 이미지와 텍스트를 모델에 입력하여 이유 또는 일련의 생각을 생성합니다. 두 번째 단계에서는 원시 입력과 생성된 근거를 모델에 결합하여 답변을 생성했습니다.

그림 10: Multimodel-COT의 추론 프로세스

2.2.2 자기 홍보

2022년 Google에서 발표한 기사[7]에서 LLM과 사고 사슬의 조합을 통해 모델이 자율 개선(Self-Improve)을 위해 비지도 데이터를 사용할 수 있다고 지적했습니다.그 핵심 방법은 그림 11에 나와 있습니다. . GPT-4는 또한 사용자 의도를 따르는 모델의 능력을 향상시키기 위해 [7]의 방식을 사용했다고 지적했습니다.

그림 11: LLM은 대형 모델로 자체 개선 가능

계산 프로세스는 다음과 같습니다.

  1. 첫째, 일련의 생각을 기반으로 프롬프트를 만듭니다.
  2. 서로 다른 온도 계수에 따라 모델은 추론 프로세스를 포함하는 여러 개의 서로 다른 경로를 생성합니다.
  3. 가장 가능성이 높은 정답을 선택하기 위해 투표를 사용합니다.
  4. 이 정답을 포함하는 모든 경로는 LLM을 최적화하는 데 사용됩니다.

이 방법이 항상 정답을 제공하는 것은 아니라는 사실을 발견하셨을 것입니다. 저자는 실험을 통해 두 가지 중요한 결론을 도출합니다.

  1. 정답률은 신뢰도와 높은 상관관계가 있는데, 이는 투표로 얻은 답이 생성된 답 중에서 가장 정답일 가능성이 높다는 것을 의미한다.
  2. 답이 틀렸더라도 학습 데이터에 추가하면 모델 학습에 도움이 됩니다.

추론 경로를 얻은 후 저자는 경로에 따라 다음과 같은 네 가지 입력 데이터를 구성했습니다.

  1. 표준 사고 사슬 프롬프트, 즉 구성(질문, 사고 사슬, 답변) 삼항 쌍;
  2. 전통적인 즉석 학습, 즉 질문과 답변만으로 이루어집니다.
  3. 입력은 질문입니다. 모델이 추론 단계를 예측할 수 있도록 "단계적으로 생각합시다" 프롬프트를 추가합니다.
  4. 전통적인 QA, 즉 질문을 입력하고 답변을 예측합니다.

마지막으로 데이터 세트를 풍부하게 하기 위해 저자는 데이터를 확장하는 두 가지 방식을 제안합니다. 하나는 두 질문을 무작위로 결합한 다음 모델이 새로운 질문을 생성하도록 하는 것이고, 다른 하나는 모델이 추론 단계를 생성하고 추가하는 것입니다. 훈련 세트에 넣습니다.

2.3 다이어그램을 이해하는 능력

GPT-4는 이미지 형식의 그래프 입력을 지원하기 때문에 OpenAI의 유명한 멀티모달 알고리즘 CLIP[8]은 그림 12와 같이 비교 학습을 통해 이미지와 텍스트를 동일한 기능 공간에 매핑할 수 있다고 말합니다. 그런 다음 CLIP의 이미지 인코더와 결합하여 GPT-4의 이미지 입력을 구현할 수 있습니다. 이미지 토큰으로 CLIP의 인코더, 그리고 마지막으로 이 토큰을 GPT-4의 특징 벡터로 인코딩하기 위해 임베딩 레이어를 추가합니다.

그림 12: 대조 학습을 통해 동일한 기능 공간에 이미지와 텍스트를 투사하는 CLIP의 구조

GPT-4가 그림 2에 있는 이 사진의 예를 이해할 수 있을 뿐만 아니라 가장 놀라운 점은 GPT-4가 많은 세부 정보가 포함된 그림 13의 학술 그림도 이해할 수 있다는 것입니다. 왜냐하면 학술 사진에서 사진에 언급된 기호와 대상 사이의 위치 관계가 매우 중요하기 때문입니다. 기능, 이 이미지 인코더는 또한 1000억 규모의 매개변수 양의 높은 확률을 가지고 있습니다.

그림 13: GPT-4는 학술 이미지의 특정 세부 사항을 이해하는 기능이 있습니다.

GPT-4의 다중 모드 능력의 또 다른 가능성은 다중 모드 대규모 언어 모델(Multimodel Large Language Model, MLLM)과 유사합니다. 그 중 마이크로소프트의 KOSMOS-1은 GPT-4와 유사한 다중모달 언어모델의 능력을 보여주었고, KOSMOS-1 역시 다중모달 질의 응답에서 매우 강력한 창발적 능력을 보여주었고, 이는 그림 14와 같다.

KOSMOS-1은 트랜스포머 디코더를 기반으로 하는 멀티모달 모델로 <s> 및 </s>는 텍스트 입력을 나타내고 <image> 및 <\image>는 이미지 입력을 나타냅니다. 이미지 임베딩은 Microsoft의 METALM[13]에서 계산한 특징 벡터를 사용합니다. 우리는 GPT-4가 KOSMO-1S의 아이디어를 끌어온 다음 OpenAI의 자체 멀티모달 작업 중 일부를 결합할 수 있다고 추측합니다.

그림 14: 매우 강력한 이미지 이해 기능을 갖춘 Microsoft의 KOSMOS-1이 등장했습니다.

GPT-4의 다중 양식에 대한 자세한 기술 정보는 GPT-4의 이미지 인터페이스가 열릴 때까지 기다렸다가 확인하기 전에 많은 테스트를 할 수 있습니다.

2.4 안전한 출력

기존 딥 러닝 모델의 아이디어는 훈련 세트에 맞게 큰 모델을 사용하는 것입니다.제너레이티브 모델의 경우 출력 내용을 완전히 제어할 수 없으며 GPT-4도 예외는 아닙니다. GPT-4 기술 보고서는 텍스트 모델이 환각, 유해 콘텐츠, 차별, 허위 정보, 폭력, 사생활 보호, 네트워크 보안 등과 같은 위험 출력 유형을 가질 것이라고 지적했습니다. GPT-4는 이 문제를 완화하기 위해 많은 노력을 기울였습니다.

위험 산출을 완화하는 GPT-4의 첫 번째 문제는 서로 다른 분야에서 50명 이상의 전문가를 고용하여 대결 테스트를 위한 레드 팀 역할을 하는 것입니다. 레드 팀의 임무는 GPT-4가 제공하는 출력을 테스트하기 위해 위험한 질문을 하고 공격을 시도하는 것입니다. 도메인 전문가의 대결을 통해 OpenAI는 GPT-4의 보안을 향상시키기 위해 서로 다른 방향에서 대량의 도메인 전문가 데이터를 수집했습니다.

2.4.1 환각

환각은 생성 모델에서 매우 어려운 문제로, 모델이 생성한 황당하거나 비현실적인 내용, 즉 심각한 넌센스를 말합니다. 이 환각 행동은 모델에 의해 생성된 내용 문장이 점점 더 유창해지고 내용이 점점 더 설득력 있게 됨에 따라 특히 해로울 것입니다. 모델의 환각은 다음과 같은 이유로 요약될 수 있습니다.

  1. 데이터 편차: 데이터의 정확성과 같은 훈련 세트에 약간의 편차가 있을 수 있으며 오류는 모델의 자연어 이해에 영향을 미칠 수 있습니다.
  2. 데이터 희소성: 훈련 세트는 특정 측면에서 상대적으로 적은 데이터를 가질 수 있으므로 이 측면에서 생성하는 모델의 능력을 제어할 수 없습니다.
  3. 모델 구조: 모델의 구조와 매개변수의 양은 모델의 일반화 및 표현 기능에 영향을 미쳐 모델의 일부 측면에서 환각을 유발할 수 있습니다.

GPT-4는 이 문제를 해결하기 위해 두 가지 전략을 채택합니다.

첫 번째 방법은 학습을 위해 ChatGPT의 데이터를 사용하는 것입니다. 이 방식의 장점은 ChatGPT가 당시 이미 어느 정도 유해 콘텐츠 생성을 거부할 수 있는 능력을 가지고 있었고, 인터넷에서 크롤링한 데이터보다 높은 신뢰도를 갖고 있다는 점이다. 하지만 그 문제는 ChatGPT의 문제를 GPT-4로 물려받을 수 있다는 것입니다. 그리고 한 모델에서 생성된 콘텐츠를 다른 모델의 교육 데이터로 사용하면 모델이 과적합될 수 있습니다.

두 번째 접근 방식은 NLP 기술을 사용하여 자동 평가 및 인간 평가를 포함하여 모델에서 생성된 환각 샘플을 감지하는 것입니다. 이 방법의 장점은 모델에서 발생하는 환각 문제를 효과적으로 감지하고 수정할 수 있다는 것입니다. 단점은 자동 평가 방법이 평가 모델의 결함으로 인해 일부 팬텀 샘플을 놓칠 수 있다는 것이며 수동 평가의 가장 큰 문제는 인건비가 매우 높다는 것입니다.

환각 감지 측면에서 Meta는 매우 중요한 기여를 합니다. 한편으로는 환각 감지 작업을 제안하여 이를 위한 환각 감지 데이터 세트 HADES[15]를 제작하였고, 다른 한편으로는 환각 데이터를 합성하여 모델 미세 조정. 이 모델은 문장에 나타나는 환각 단어를 감지하여 생성된 콘텐츠의 진위를 평가하여 환각 가능성을 완화할 수 있습니다. 그림 15는 기계 번역에서 이 방법의 예이며 1로 표시된 부분이 생성된 환각 콘텐츠에 해당합니다. 여기에서 OpenAI는 Meta와 유사한 방법이나 데이터를 채택했을 수 있다고 추측됩니다.

그림 15: 기계 번역에서 FAIR가 제안한 환각 감지 방법의 예

구체적으로 OpenAI는 GPT-4 자체를 사용하여 환각 또는 비교되지 않은 데이터를 생성하고 이를 그림 6의 2단계에서 보상 모델의 교육 세트에 통합하는 다단계 프로세스를 설계했습니다.

  1. 프롬프트 p를 GPT-4에 입력하고 응답 r1을 얻습니다.
  2. p와 r1을 GPT-4에 공급하고 모든 환각 토큰을 나열하도록 지시합니다. 환각이 없으면 환각 h1이 표시될 때까지 계속 생성합니다.
  3. p, r1 및 h1을 GPT-4에 공급하고 환각 없이 응답 r2를 생성하도록 지시합니다.
  4. p와 r2를 GPT-4에 입력하고 모든 환각 토큰을 나열하도록 합니다. 환각이 감지되지 않으면 r1과 r2를 비교 샘플 쌍으로 보상 모델의 훈련 세트에 넣을 수 있습니다.

2.4.2 기타 문제

다른 가능한 위험 결과에 대해 OpenAI는 기술 솔루션을 자세히 소개하지 않았지만 기술 솔루션에서 다음과 같은 유형의 방법을 사용했음을 알 수 있습니다.

  1. RBRM을 사용하여 가능한 위험을 탐지합니다.
  2. 모델이 신속한 학습을 ​​통해 그러한 질문에 대답하는 것을 거부하도록 학습시키십시오.
  3. 레드 팀을 사용하여 이러한 가능한 문제를 찾으십시오.
  4. 학습 데이터를 필터링하고 위험 문제를 일으킬 수 있는 샘플을 삭제합니다.
  5. 보상 모델을 교육하고 모델이 유해한 출력 콘텐츠를 처벌하도록 합니다.

2.5 프로그래밍 능력

GPT-4는 ChatGPT에 비해 프로그래밍 능력이 엄청나게 향상되어 한편으로는 사고의 사슬 때문에 더 강력한 논리 분석 능력을 가질 수 있고 다른 한편으로는 OpenAI의 유명한 코드 생성 알고리즘에서 배울 가능성이 있습니다. 코드X[3] . CodeX는 코드 생성 분야에서 GPT-3의 파생 버전이며 Copilot 플러그인의 기본 알고리즘이기도 합니다. CodeX는 GPT 시리즈의 디코더 전용 아키텍처 시스템을 채택하고 있으며 모델의 매개변수 수량은 12M에서 12B까지 다양한 버전이 있습니다. CodeX의 교육은 사전 교육과 미세 조정의 두 단계로 나뉩니다.

사전 훈련 단계에서 OpenAI는 먼저 Github에서 많은 수의 Python 파일을 크롤링하고 청소 후 159GB 크기의 훈련 세트를 얻었습니다. CodeX는 코드 생성 모델이기 때문에 GPT-3에서 학습한 가중치를 사용하지 않고 GPT-3의 모델 하이퍼파라미터를 완전히 복사하지 않고 코드 생성 모델을 재학습합니다.

미세 조정 단계에서 OpenAI는 경쟁 웹 사이트, 인터뷰 웹 사이트 및 Github의 단위 테스트 스크립트에서 약 40,000개의 데이터를 수집했습니다. CodeX는 코드의 정확성을 평가할 때 기존의 BLEU 점수를 사용하지 않고 코드가 통과할 수 있는 단위 테스트의 백분율을 평가 기준으로 사용하고 평가 테스트 세트인 HumanEval과 평가 기준인 pass@k를 설정합니다.

데이터 유출을 피하기 위해 HumanEval의 데이터는 총 164개의 질문과 많은 테스트 사례를 포함하여 모두 사람이 구성합니다. HumanEval은 각 함수를 함수 서명, 함수 주석, 함수 본문 및 단위 테스트 샘플의 네 가지 범주로 나눕니다. 힌트 학습을 수행할 때 함수 시그니쳐와 함수 주석은 입력 힌트로, 함수 본문은 필수 출력으로, 단위 테스트는 생성된 코드의 효과를 평가하는 데 사용됩니다.

CodeX의 평가 라벨은 Leetcode와 유사하게 얼마나 많은 테스트 케이스가 테스트를 통과했는지, CodeX의 평가 기준인 pass@k는 모델의 모든 생성된 답변 중에서 k를 무작위로 선택하고 이들로부터 정답을 얻을 확률을 의미합니다. k 답변 . 계산 방법은 공식 (1)과 같습니다. 여기서 n은 각 질문에 대해 생성된 답이고, k는 n개의 답 중에서 무작위로 선택된 k이고, c는 단위 테스트를 통과한 n개의 답의 수입니다.

CodeX와 GPT-4는 모두 GPT-3의 차세대 모델로 CodeX의 기성 아이디어와 데이터를 사용하고 모델의 프로그래밍 능력을 향상시키는 것이 GPT-4의 합리적인 작업입니다.

2.6 다국어 능력

GPT-4의 다른 언어 능력의 실질적인 향상에 대해 OpenAI는 소개를 하지 않았고 관련 설명을 찾지 못했습니다. 여기에서 현재 기술 축적을 기반으로 OpenAI가 사용할 수 있는 기술 솔루션을 추측합니다.

  1. 다른 언어에 대한 향상된 학습 데이터
  2. 더 큰 규모의 모델을 통해 GPT-4는 작은 언어로 더 많은 기능을 가질 수 있습니다.
  3. 기존 병렬 코퍼스를 사용하여 힌트 학습을 기반으로 기계 번역 작업을 구성하고, 기계 번역 엔진을 사용하여 데이터의 일부를 작은 언어로 번역하는 등 작은 언어에 대한 작업을 추가했습니다.

이 부분에는 실제로 관련 정보가 많지 않으며 의견 영역에서 자신의 추측을 제공하는 것을 환영합니다.

2.7 긴 시퀀스 기능

여기서 긴 시퀀스에는 두 가지 측면이 포함됩니다. 한편으로는 GPT-4가 여러 라운드의 대화를 지원하고 다른 한편으로는 GPT-4가 더 긴 입력 데이터를 지원합니다. 이들이 사용할 수 있는 기술에 대해 논의해 보겠습니다.

2.7.1 여러 라운드의 대화

ChatGPT와 GPT-4 모두 지속적인 대화를 지원하지만 OpenAI는 지속적인 대화 기능 뒤에 기술적인 솔루션을 제공하지 않았습니다. 이전 대화가 대화의 각 라운드에서 대략적으로 모델에 입력으로 제공되는 경우. 이론상으로는 효과가 있지만 이 방법의 가장 큰 문제는 대화 라운드 수가 증가함에 따라 입력 데이터도 급격히 증가하여 ChatGPT 또는 GPT-4의 예측 속도가 점점 느려지는 현상이 발생한다는 것입니다. ChatGPT 및 GPT-4를 사용하는 여러 라운드의 대화에서 이러한 점진적인 속도 저하.

모델 관점에서 이 문제를 해결하고 싶다면 이 문제를 해결할 수 있는 알고리즘만 있으면 바로 Transformer-XL입니다[10]. Transformer-XL의 중요한 개선 사항은 그림 16과 같이 프래그먼트 재귀 메커니즘을 제안하는 것입니다. 프래그먼트 재귀 메커니즘은 트랜스포머와 RNN의 조합과 유사하며, 길이가 무제한인 가변 길이 데이터의 경우 각 프래그먼트의 길이는 고정되어 있고 이 프래그먼트의 특성은 계산 중에 계산되며, 그 핵심 아이디어는 next 조각화할 때 모델이 모든 길이의 특징을 처리할 수 있도록 이전 조각의 기능이 현재 조각에 추가됩니다.

그림 16: Transformer-XL의 조각 재귀 메커니즘

ChatGPT와 GPT-4 간의 여러 라운드의 대화에 응답하여 OpenAI가 Transformer-XL의 조각 재귀 아이디어를 차용했다고 추측합니다. 즉, GPT-4는 $t$번째 라운드의 계산을 수행할 때 캐시된 라운드 t-1과 라운드 t의 기능을 추가하고 현재 라운드의 계산에 함께 사용합니다. t-1 라운드도 t-2 라운드의 특성을 고려하기 때문에 이론적으로 이 방법은 예측 시간에 영향을 미치지 않고 이전 많은 라운드의 대화 내용을 얻을 수 있습니다.

2.7.2 긴 시퀀스 입력

입력 길이가 n인 Transformer의 복잡도가 O(n^2)이기 때문에 전통적인 Transformer는 긴 시퀀스 문제를 잘 처리하지 못합니다. Transformer의 기본 입력 길이는 512입니다. 길이가 512보다 큰 입력 데이터에 대한 Transformer의 솔루션은 길이가 512인 여러 텍스트 블록으로 분할하는 것이지만 이 경우 컨텍스트 조각화가 발생합니다. 이전 섹션에서 소개된 Transformer - XL은 이 문제를 해결하는 데 사용됩니다.

여기서 우리는 긴 시퀀스 입력을 해결하기 위한 OpenAI의 자체 알고리즘을 소개합니다: Sparse Transformer[11], GPT-3는 일반 Transformer와 Sparse Transformer의 혼합 모드이기 때문에 Sparse Transformer도 GPT-4에서 사용될 가능성이 매우 높은 모델 긴 입력 텍스트를 처리하지만 일반 Transformer와 어떻게 혼합되는지는 알 수 없습니다. Sparse Transformer의 특징은 가장 기여도가 높은 Top-k feature의 state에만 주의를 기울인다는 점으로, Transformer의 집중적인 Attention을 대체하기 위해 Sparse Attention 메커니즘을 사용하고 O(n에 대한 Attention 계산의 복잡성을 줄임) \sqrt n). 기존 Transformer의 Dense Attention 커널은 Stried Attention과 Fixed Attention으로 분해되며 각각의 Attention 커널은 행 Attention 커널과 열 Attention 커널로 나뉩니다. 분해된 어텐션 커널은 모두 희소하므로 그림 17과 같이 모델의 복잡성을 크게 줄입니다.

그림 17: Dense 및 sparse 어텐션

GPT-4는 더 긴 데이터 시퀀스를 지원하기 때문에 긴 데이터를 효율적으로 처리하기 위한 Transformer의 두 가지 변형도 여기에 나열합니다. GPT-4의 기술 보고서가 너무 많기 때문에 GPT-4의 네트워크 구조는 무엇이며 OpenAI의 공식 발표를 기다릴 수밖에 없습니다.

2.8 기술 솔루션 요약

이 섹션에서 우리는 많은 기술 솔루션에 대해 논의했으며, 그 중 일부는 상대적으로 높은 신뢰성을 가지고 있는 반면 다른 일부는 높은 수준의 추측을 가지고 있습니다. 아래 표는 각 옵션의 신뢰도를 제공합니다(1에서 5까지 증가).

출현 생각의 사슬 자기 홍보 클립 코스모스-1 사본 XLM 트랜스-XL 스파스 전송
5 5 4 1 1 4

위의 추측에 따르면 GPT-4의 기술 솔루션은 대략 다음과 같습니다.

  • 1단계: 멀티모달 사전 학습 모델 구축 및 미세 조정 이 단계의 주요 목적은 크롤링된 대용량 데이터를 기반으로 특정 기능을 갖춘 GPT-4의 첫 번째 버전을 교육하는 것입니다. 교육 방법은 GPT와 유사합니다. -삼. 하나는 KOSMOS-1 또는 다른 다중 모드 모델을 기반으로 다중 모드 사전 훈련 모델을 구축하고 Transformer-XL을 사용하여 긴 텍스트의 높은 복잡성 문제를 해결하는 것입니다. 대규모 크롤링 데이터, 단일 모드, 다중 모드, 기존 프롬프트 학습 데이터, 사고 사슬 프롬프트 학습 데이터, 코드 데이터 등을 포함한 데이터를 수집하여 모델을 훈련합니다.
  • 두 번째 단계: GPT-4 행동 정렬 이 단계의 주요 목적은 수동 마킹을 기반으로 모델 행동을 인간 행동과 일치시키고 모델의 위험을 줄이는 것입니다. 이 단계에서 제작해야 할 모델은 2가지가 있는데, 하나는 전문지식을 바탕으로 Rule-Based Reward Model RBRM을 설계하는 것이고, 다른 하나는 의 출력 데이터를 기반으로 Deep Learning 기반 Reward Model RM을 학습시키는 것이다. 수동 마킹 데이터 및 환각 감지 모델 .
  • 세 번째 단계: RBRM 및 RM을 보상 기능으로 사용하고 RLHF를 사용하여 모델을 교육합니다. 2단계와 3단계의 학습 방법은 ChatGPT와 유사합니다.
  • 네 번째 단계: 모델 자체 개선, GPT-4의 교육은 주기적 반복 및 지속적인 프롬프트가 있는 교육 프로세스일 수 있습니다. 이 단계에서 GPT-4는 모델 자체 개선의 교육 데이터, 전문가 레드 팀 피드백의 테스트 사례 등과 같은 더 많은 데이터를 자동으로 생성하고 이 데이터를 사용하여 모델을 교육하는 첫 번째 단계로 돌아갑니다.

3. GPT-4의 발전방향

최근에 저도 일상 업무에 GPT-4와 ChatGPT를 적용했는데 GPT-4의 강력한 기능에 깊은 충격을 받았습니다. 그것은 일상적인 프로그래밍과 기사 작성에 도움이 될 뿐만 아니라 일상적인 집안일을 해결하는 데 도움이 되어 업무 효율성을 크게 향상시킵니다. 인터넷에는 GPT-4에 대한 찬사와 비판이 무수히 많은 글들이 있는데 여기에서 우리가 분석한 기술 솔루션을 결합하여 GPT-4의 발전 방향을 논의하거나 GPT-5의 출현 가능성을 예측해 보겠습니다.

3.1 GPT-4의 최적화 방향

GPT-4는 텍스트 생성, 코드 생성, 이미지 이해 및 논리적 추론 기능에서 강력한 기능을 입증했지만 여전히 개선의 여지가 많습니다. 향후 작업에는 다음과 같은 주요 방향이 있을 수 있습니다.

  1. 현재 GPT-4 사용 비용은 여전히 ​​매우 높으며 GPT-4와의 대화 비용은 약 1위안입니다. ChatGPT의 유지 비용은 하루에 약 100만 달러이며, GPT-4의 매개 변수 볼륨은 1조 규모에 육박할 것으로 예상되므로 유지 비용은 약 500만 달러가 될 것으로 예상합니다. 더 많은 사람들이 GPT-4를 사용할 수 있도록 모델을 가볍게 하고 더 많은 사람들이 자신의 GPT-4를 훈련할 수 있도록 하는 것이 향후 연구 방향이 될 것입니다.
  2. GPT-4는 절대적으로 안전하지 않으며 GPT-4에는 여전히 환각이 있습니다. GPT-4의 환각 감지, 레드 팀 대결, RBRM 등은 보안 문제에 대한 궁극적인 해결책이 아닙니다. 어떤 시스템도 절대적으로 안전하지는 않지만 OpenAI는 직면할 수 있는 법적 위험을 완화하기 위해 보안에 많은 투자를 했습니다.
  3. GPT-4는 여전히 오프라인 모델이며 GPT-4가 검색 엔진을 대체할 수 없는 중요한 이유는 지식이 실시간으로 업데이트되지 않기 때문입니다. 지식 수준은 데이터를 크롤링하는 마감 날짜에 따라 다르므로 마감 날짜 이후에 발생하는 뉴스, 개념, 이벤트 등을 처리할 수 없습니다.
  4. GPT-4는 여전히 다중 양식의 예비 탐색 단계입니다. 다중 양식과 LLM은 향후 몇 년 동안 AGI의 두 가지 가장 중요한 방향이 될 수 있습니다. OpenAI 자체도 다중 양식 방향으로 많은 훌륭한 작업을 수행합니다. 더 많은 양식과 더 많은 응용 프로그램을 포함하는 다중 양식의 방향으로 GPT-4의 기능을 더 활용하는 방법은 OpenAI의 다음 핵심 작업이 될 것입니다.

3.2 GPT-4 적용

강력한 생성 기능과 논리적 추론 기능을 갖춘 GPT-4는 우리가 일하는 방식에 큰 영향을 미칠 수 있습니다. 저는 이 글을 읽는 많은 독자들이 알고리즘 관련 과학 연구 및 작업에 참여하고 있다고 생각합니다.모든 사용자가 GPT-4, 심지어 ChatGPT를 사용하도록 권장합니다.따라서 GPT-4의 어떤 기능이 우리에게 매우 도움이 됩니까? 다음은 제 경험을 바탕으로 더 도움이 된다고 생각되는 몇 가지 지침을 나열한 것입니다.

  1. 기능 코드 작성 , GPT-4에게 특정 기능을 만족하는 복잡한 프레임워크 작성을 요청하면 복잡한 힌트를 제공해야 할 수 있으며 생성되는 코드도 확인해야 합니다. 그러나 GPT-4가 네트워크 구축이나 기능적 기능 구현과 같이 덜 어려운 기능적 기능을 구현하도록 허용된다면 GPT-4에서 생성된 코드의 유용성은 여전히 ​​매우 높습니다.
  2. 텍스트 다듬기 수행 기술 연구 개발 인력으로서 우리의 글이 좋지 않을 수 있습니다. 이때 GPT-4를 사용하여 우리가 쓰는 기사를 다듬을 수 있습니다. 특히 영어로 논문이나 이메일을 작성할 때 GPT-4는 Chinglish 문제를 해결하는 데 도움이 될 수 있습니다.
  3. 논문을 읽은 후 GPT-4는 훌륭한 기계 번역 도구일 뿐만 아니라 시험 후 번역 효과가 전문성과 일관성 측면에서 기존 기계 번역 모델보다 훨씬 뛰어납니다. 또한 GPT-4는 일부 요약, 일반화 및 추출 작업도 수행할 수 있으므로 논문의 핵심 기술을 빠르게 이해할 수 있습니다. ChatGPT 기반의 ChatPDF는 우리가 논문을 읽을 수 있는 매우 강력한 도우미입니다.그림 18은 ChatGPT를 사용하여 GPT-4에서 생성된 콘텐츠를 읽을 수 있음을 보여줍니다.
    그림 18: GPT-4의 기술 보고서를 기반으로 ChatPDF에서 생성된 GPT-4의 보안 개선 작업
  4. 일상 업무에서 GPT-4는 공식 발표, 연설, 감사 편지 및 기타 콘텐츠를 작성하는 데 매우 능숙하고 작업 요약 및 요약에 매우 능숙하여 이러한 측면에서 인간의 효율성을 향상시킬 수 있습니다. 아이디어가 없는 것에 대해서는 GPT-4에게 물어보려 할 것인데, 이는 종종 마음을 여는 데 도움이 될 수 있습니다.

GPT-4는 환각과 같은 보안 문제를 완전히 해결하지 못하며 GPT-4에서 생성된 콘텐츠를 마주할 경우 사용하기 전에 엄격한 검토를 수행하는 것이 좋습니다. 그렇지 않으면 설명할 수 없는 문제가 발생할 수 있습니다. GPT-4가 이 분야에 종사하는 전문 인력을 대체할 수 없는 것도 이 때문이다. 생성 모델의 전체 수명 주기를 수반합니다.

4. 기타 LLM

ChatGPT와 GPT-4의 제안으로 국내외 기업들이 발빠르게 뒤따라 LLM 모델 개발에 박차를 가했고 많은 기업들이 자체 LLM을 제안했다.

그 중 중국의 대표적인 직업은 다음과 같다.

  • Baidu의 Wenxinyiyan: Baidu의 Wenxinyiyan( ERNIE -Bot)은 중국에서 가장 초기에 후속 사전 교육을 받은 대형 모델이지만 Baidu는 항상 작업 기술을 비밀로 유지해 왔습니다. 그러나 그의 데모와 많은 테스터의 테스트 결과로 볼 때 Wen Xinyiyan은 Baidu의 많은 AI 작업의 엔지니어링 조합과 같습니다.
  • Ali의 Tongyi Qianwen: Tongyi Qianwen은 Transformer-XL로 구축된 텍스트 생성 모델이며 20억 개의 매개변수가 있습니다. 초대 코드를 받은 네티즌들의 피드백에 따르면, Tongyi Qianwen의 텍스트 생성 효과는 Wenxin Yiyan보다 약간 나쁩니다.
  • SenseTime의 Rixin: 기자 회견의 디스플레이 효과로 볼 때 SenseTime의 Rixin은 현재 중국 최고의 LLM이며 ChatGPT와 유사한 효과를 달성했습니다. Ririxin에는 "Consultation", "Miaohua", "Ruying", "Qiongyu" 및 "Gewu"의 다섯 가지 주요 기능이 포함되어 있으며 그 중 "Consultation"은 GPT-4와 일치합니다.
  • GLM of Tsinghua University: GLM [17]은 Tsinghua University와 Zhipu AI가 공동으로 시작한 영어 및 중국어 교육을 사용하는 오픈 소스 이중 언어 모델입니다. 최대 매개변수 규모는 1300억에 도달했습니다. GLM-130B의 효과는 GPT- 3과 ChatGPT 사이. GLM은 또한 ChatGLM 및 GLM-6B를 출시했는데, 이는 현재 최고의 오픈 소스 중국 사전 교육 대형 모델인 단일 시스템에서 실행 및 미세 조정이 가능합니다.
  • 푸단대학교의 MOSS: MOSS는 푸단대학교 NLP 연구소의 Mr. Qiu Xipeng 팀으로 최근 관련 코드를 오픈 소스화했습니다. 현재 효과로 볼 때 MOSS는 그다지 성숙하지 않았지만 좋은 소식은 Qiu 선생님의 팀이 MOSS를 최적화하고 있다는 것입니다.

국내의 빠른 후속 조치뿐만 아니라 외국의 주요 기업도 자체 LLM을 시작했으며 그 중 대표적인 것은 다음과 같습니다.

  1. MetaAI의 LLaMA: LLaMA[19]에는 70억, 130억, 330억 및 650억의 네 가지 매개 변수 크기가 있습니다. OpenAI와 달리 MetaAI는 코드와 모델을 오픈 소스로 제공하고 단일 시스템 배포를 지원합니다. LLaMA의 효과는 GPT-4만큼 좋지는 않지만 오픈 소스 및 독립 실행형 기능은 많은 기관 및 개인의 2차 개발을 유도했습니다.
  2. Google의 PaLM과 LaMDA: PaLM[20]은 Google이 제안한 언어 모델로 GPT 시리즈와 유사한 구조로 총 매개변수 량이 5400억 개에 달한다. 이미지 기능. LaMDA[22]는 인간에 가까운 표현으로 보다 자연스럽고 인간적인 언어 모델을 생성하기 위해 Google에서 출시한 언어 모델입니다. 인간의 대화와 생각. Google 연구원 Blake Lemoine도 한동안 LaMDA를 테스트한 후 한탄했습니다. LaMDA에는 이미 성격이 있을 수 있습니다.
  3. Claude of Anthropic: Anthropic은 OpenAI의 전 직원이 설립하고 Google R&D의 지원을 받는 인공 지능 회사입니다. 그들은 또한 최근 LLM: Claude를 시작했습니다. 현재 Cluade의 효과는 ChatGPT보다 약간 강하지만 GPT-4보다 현저히 약합니다.

상기 외 해외 LLM으로는 BigScience의 BLOOM, Stanford의 Alpaca, Microsoft의 METALM, KOSMOS-1 등, 국내 Huawei의 Pangu, Tencent의 WeLM 등이 있다. 이러한 일반 모델 외에도 LLM은 의료 분야의 HuaTuo[23], 금융 분야의 BloombergGPT[24] 등과 같은 세분화된 분야에서도 사용됩니다.

5. 요약

GPT-4가 4차 산업혁명을 가져올지는 검증할 시간이 필요한 주제이고 여기서 결론을 내릴 자격은 없지만 GPT-4는 개인적으로 큰 영향을 미쳤다.

우선 전통적인 인공지능에 대한 나의 이해를 어느 정도 흔들었다. 거시물리학의 많은 정리가 미시물리학에서 유효하지 않은 것처럼, 전통적인 인공지능에서 축적한 많은 경험이 GPT-4에서는 유효하지 않다. . 강력한 제로 샘플 학습 기능과 상위 수준 기능은 딥 러닝에 대한 기존의 이해를 훨씬 뛰어넘습니다.

둘째, GPT-4와 ChatGPT는 일상 업무에서 가장 강력한 도우미가 되고 있습니다.GPT-4는 이 글을 작성할 때에도 큰 도움이 되었습니다. 문제. 결국 버섯처럼 생겨난 다양한 대형 모델들은 점점 더 비관적인 딥러닝에 새로운 자신감과 활력을 불어넣었습니다.

GPT-4의 기술에 대해서는 모든 사람이 그것을 이해하고 사용법을 배워야 한다고 제안합니다. 당신의 일이 컴퓨터와 관련이 있든 없든 그것은 당신에게 도움이 될 것이고 당신이 요리사라도 당신을 위한 맛있는 레시피를 생성할 수 있습니다. GPT-4를 사용할 때도 이성적으로 생성되는 콘텐츠를 살펴봐야 합니다.GPT-4만 약간의 위험 문제가 있으며 환각 문제로 인해 손실이 발생하지 않도록 검토를 완화할 수 없습니다.

앞으로 GPT-4는 확실히 우리에게 많은 영향을 줄 것입니다. 우선 GPT-4에 의해 생성된 식별할 수 없는 많은 콘텐츠가 인터넷에 빠르게 등장할 것이며, 통일된 GPT-4 행동 패턴에 의해 대중이 영향을 받을지 여부를 숙고할 필요가 있습니다. 둘째, GPT-4는 일부 직업의 생산성을 크게 해방하고 심지어 이러한 직업을 대체할 것입니다.이 기회를 잡을 수 있는지 여부는 이 얽힌 환경에서 새로운 기회를 보는 것이 매우 중요합니다. 마지막으로 GPT-4가 모든 사람에게 영향을 미치는 형태가 다르기 때문에 GPT-4가 정말 AGI를 가져온다면 친구들이 놓치지 않았으면 좋겠다.

참조

  • [1] https://cdn.openai.com/papers/gpt-4.pdf

  • [2] https://zhuanlan.zhihu.com/p/614340292

  • [3] Chen M, Tworek J, Jun H, 외. code[J]에서 훈련된 대규모 언어 모델 평가. arXiv 프리프린트 arXiv:2107.03374, 2021.

  • [4] Bai, Yuntao, et al. "사람의 피드백을 통한 강화 학습을 통해 도움이 되고 무해한 조수를 교육합니다." arXiv 프리프린트 arXiv:2204.05862  (2022).

  • [5] Wei J, Tay Y, Bommasani R, 외. 대규모 언어 모델[J]의 새로운 능력. arXiv 프리프린트 arXiv:2206.07682,

  • [6] Wei J, Wang X, Schuurmans D, 외. 일련의 사고 프롬프트는 대규모 언어 모델[J]에서 추론을 이끌어냅니다. arXiv 프리프린트 arXiv:2201.11903, 2022.

  • [7] 황 J, 구 SS, 허우 L 등. 대규모 언어 모델은 스스로 개선할 수 있습니다[J]. arXiv 프리프린트 arXiv:2210.11610, 2022.

  • [8] 래드포드, 알렉 등. "자연어 감독에서 전송 가능한 시각적 모델 학습." 기계 학습에 관한 국제 회의 . PMLR, 2021.

  • [9] 기욤 램플과 알렉시스 코노. 교차 언어 모델 사전 교육. arXiv 프리프린트 arXiv:1901.07291 , 2019.

  • [10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le, Ruslan Salakhutdinov. Transformer-XL: 고정 길이 컨텍스트를 넘어 세심한 언어 모델. arXiv 프리프린트 arXiv:1901.02860 , 2019.

  • [11] Rewon Child, Scott Gray, Alec Radford, Ilya Sutskever. 스파스 변환기로 긴 시퀀스 생성. arXiv 프리프린트 arXiv:1904.10509 , 2019.

  • [12] Huang, Shaohan, 외. "언어가 필요한 전부는 아닙니다. 인식을 언어 모델에 맞추는 것입니다." arXiv 프리프린트 arXiv:2302.14045  (2023).

  • [13] Hao, Yaru, 외. "언어 모델은 범용 인터페이스입니다." arXiv 프리프린트 arXiv:2206.06336  (2022).

  • [14] Zhang, Zhuosheng, et al. "언어 모델의 다중 사고 사슬 추론." arXiv 프리프린트 arXiv:2302.00923  (2023).

  • [15] Liu, Tianyu, 외. "자유 형식 텍스트 생성을 위한 토큰 수준의 참조 없는 환각 감지 벤치마크입니다." arXiv 프리프린트 arXiv:2104.08704  (2021).

  • [16] Zhou, Chunting, 외. "조건부 신경 시퀀스 생성에서 환각 콘텐츠 감지." arXiv 프리프린트 arXiv:2011.02593  (2020).

  • [17] Du, Zhengxiao, et al. "GLM: autoregressive 빈 채우기를 사용한 일반 언어 모델 사전 교육." 전산 언어학 협회 제60차 연례 회의 간행물(1권: 긴 논문) . 2022.

  • [18] 자오, 웨인 신 등. "대형 언어 모델에 대한 조사." arXiv 프리프린트 arXiv:2303.18223  (2023).

  • [19] Touvron, Hugo, et al. "Llama: 개방적이고 효율적인 기본 언어 모델." arXiv 프리프린트 arXiv:2302.13971  (2023).

  • [20] Chowdhery, Aakanksha, 외. "Palm: 경로로 언어 모델링 확장." arXiv 프리프린트 arXiv:2204.02311  (2022).

  • [21] Driess, Danny, 외. "Palm-e: 구현된 다중 모드 언어 모델." arXiv 프리프린트 arXiv:2303.03378  (2023).

  • [22] Thoppilan, Romal, 등. "Lamda: 대화 응용 프로그램용 언어 모델." arXiv 프리프린트 arXiv:2201.08239  (2022).

  • [23] Wang, Haochun, et al. "HuaTuo: 중국 의학 지식으로 LLaMA 모델 조정." arXiv 프리프린트 arXiv:2304.06975  (2023).

  • [24] Wu, Shijie, et al. "BloombergGPT: 금융을 위한 대규모 언어 모델." arXiv 프리프린트 arXiv:2303.17564  (2023).

  • [25] Bubeck, Sébastien, et al. "인공 일반 지능의 불꽃: gpt-4를 사용한 초기 실험." arXiv 프리프린트 arXiv:2303.12712  (2023).

  • [26] 린, 스테파니, 제이콥 힐튼, 오웨인 에반스. "Truthfulqa: 모델이 인간의 거짓을 어떻게 모방하는지 측정." arXiv 프리프린트 arXiv:2109.07958  (2021).

저자: JD 소매 Liu Yan

콘텐츠 출처: JD Cloud 개발자 커뮤니티

{{o.이름}}
{{이름}}

Ich denke du magst

Origin my.oschina.net/u/4090830/blog/8816351
Empfohlen
Rangfolge