Zhang Junlin: ChatGPT의 LLM(대형 언어 모델)의 기술적 필수 요소에 대한 고찰

Reposted from: https://mp.weixin.qq.com/s/eMrv15yOO0oYQ-o-wiuSyw
소개: ChatGPT가 등장한 후 많은 사람들이 놀라거나 깨어났습니다. 놀랍게도 큰 언어 모델(LLM, Large Language Model)의 효과가 이렇게 좋을 줄은 몰랐기 때문에 우리의 LLM 인지 및 발달 개념은 세상에서 가장 진보된 아이디어와는 거리가 멀다는 깨달음입니다. . 나는 놀라기도 하고 각성하기도 하는 그룹에 속하며, 나 역시 전형적인 중국인이다. 중국인들은 자기반성을 잘하기 때문에 반성하기 시작했고, 이 글은 반성의 결과이다.

솔직히 말해서 중국의 LLM 모델과 관련된 기술 측면에서는 현재 가장 앞선 기술과의 격차가 더욱 벌어졌습니다. 기술 리더십이나 기술 격차에 대해서는 발전적 관점에서 동적으로 살펴봐야 한다고 생각합니다. Bert가 등장한 지 1~2년이 지났지만 실제로 이 분야의 국내 기술 추격 속도는 여전히 매우 빠르며 일부 좋은 개선 모델도 제안되었습니다. 격차의 분수령은 출시 이후가 되어야 합니다. GPT 3.0이 출시되는 2020년 중반쯤입니다. 당시 GPT 3.0이 단지 특정 기술이 아니라 실제로 LLM이 가야 할 방향에 대한 개발 개념을 반영하고 있다는 사실을 아는 사람은 소수에 불과했습니다. 그 이후로 그 격차는 점점 더 벌어졌고, ChatGPT는 이러한 개발 철학의 차이에 따른 자연스러운 결과일 뿐입니다. 따라서 개인적으로 초대형 LLM을 구축할 수 있는 재원이 있는지 여부라는 요인을 차치하고 기술적인 측면에서만 보면 그 격차는 주로 LLM에 대한 이해와 개발 개념의 차이에서 비롯된다고 생각합니다. 앞으로는 어디로 갈지.
중국이 외국 기술로부터 점점 멀어지고 있는 것은 사실이고, 이를 인정하지 않을 수 없다. 얼마 전 인터넷상에서 많은 사람들이 국내 AI가 지금 '생사의 위기'에 처해 있다고 걱정했지만, 그렇게 심각한 수준은 아니라고 생각한다. 이 세상에서 이렇게 미래 지향적인 비전을 가진 사람은 OpenAI뿐인 것 같지 않나요? 실제로 Google을 포함하여 LLM의 개발 개념에 대한 이해는 OpenAI 뒤에 분명히 있습니다. 현실은 OpenAI가 너무 좋은 성능을 발휘하여 국내뿐 아니라 모든 사람을 뒤처지게 만들었다는 것입니다.
LLM 개념이나 관련 기술 면에서는 OpenAI가 해외 구글이나 딥마인드보다 반년~1년 정도 앞서고, 중국보다는 2년 정도 앞서는 것 같아요. LLM의 경우 계층이 매우 분명합니다. Google이 2위가 되어야 합니다. PaLM과 Pathways는 Google의 기술 비전을 가장 잘 반영할 수 있습니다. 출시 시기는 2월부터 4월 22일 정도입니다. 같은 기간에 OpenAI가 출시한 것이 InstructGPT입니다. 여기에서 Google과 OpenAI 사이의 격차를 볼 수 있습니다. 제가 왜 이렇게 말하는지는 제 뒤에 있는 텍스트를 읽으시면 아마 이해하실 수 있을 것입니다. DeepMind의 이전 초점은 게임을 극복하기 위한 학습 강화와 과학을 위한 AI에 있었습니다. 실제로 LLM에 진출하기에는 매우 늦었습니다. 21년 동안 이 방향에 주목하기 시작했어야 했는데 현재는 따라잡는 상태에 있습니다. . Meta는 말할 것도 없고 LLM에 초점이 맞춰져 있지 않았는데 이제는 따라잡으려고 노력하는 것 같은 느낌이 듭니다. 국내는 물론이고, 그럼에도 불구하고 아직도 최선을 다하고 있는 기관들이죠? 나는 그것이 참작된다고 생각합니다. LLM에 대한 OpenAI의 철학이 무엇인지에 대해서는 이 글의 마지막 부분에서 나의 인식에 대해 이야기하겠습니다.
이 기사에서는 GPT 3.0 등장 이후의 주류 LLM 기술을 정리했습니다. 그 이전의 주류 기술에 대해서는 "PTM Riding the Wind and Waves: Technical Progress of Pre-training Models in the Last 2 Years"를 참조할 수 있습니다.

(https://zhuanlan.zhihu.com/p/254821426)

이 두 기사를 읽은 후에는 LLM 분야의 기술적 맥락, LLM 기술 개발 과정에서 등장한 다양한 개발 개념, 심지어 가능한 향후 개발 동향에 대해 더 명확하게 이해할 수 있다고 믿습니다. 물론, 여러 곳에 언급된 내용은 저의 개인적인 의견이므로 매우 주관적이므로 실수와 누락이 불가피하니 꼭 참고하시기 바랍니다.
이 기사에서는 다음 질문 중 일부에 답하려고 시도합니다. ChatGPT가 NLP 및 AI 분야의 패러다임 전환을 가져오나요? 그렇다면 어떤 영향을 미칠까요? LLM은 막대한 양의 데이터에서 무엇을 배웠습니까? LLM은 이 지식에 어떻게 접근하나요? LLM의 규모가 점차 커지면 어떤 영향을 미칠까요? 맥락 학습(In Context Learning)이란 무엇이며 왜 신비한 기술입니까? 그것과 Instruct의 관계는 무엇입니까? LLM에는 추론 능력이 있나요? CoT 사고 사슬은 어떻게 작동하나요? 잠깐만요, 이 책을 읽고 나면 이러한 질문에 대한 답을 얻게 되리라 믿습니다.
먼저 LLM 기술의 현황을 이야기하기에 앞서, 내 마음 속에 있는 연구 패러다임의 변화에 ​​대해 말씀드리겠습니다. 이를 통해 우리는 "숲을 먼저 보고, 나무를 다시 본다"고 할 수 있으며, 특정 기술이 왜 이렇게 변화했는지 더 명확하게 이해할 수 있습니다.

01. 트렌드의 정점: NLP 연구 패러다임의 전환

타임라인을 조금 더 연장하고 NLP 분야의 딥러닝 시대로 돌아가서 더 긴 시간 창에서 기술 변화와 그 영향을 관찰하면 일부 핵심 노드를 더 쉽게 볼 수 있습니다. 저는 개인적으로 지난 10년 동안 NLP 분야의 기술 발전에 두 가지 주요 연구 패러다임 변화가 있었다고 생각합니다.

1. 패러다임 전환 1.0: 딥러닝에서 2단계 사전 훈련 모델로

이러한 패러다임 전환이 적용되는 기간은 대략 NLP 분야에 딥 러닝이 도입되는 시점(2013년경)과 GPT 3.0이 등장하기 전(2020년 5월경)입니다.
Bert와 GPT 모델이 등장하기 이전에는 NLP 분야에서 인기 있는 기술은 딥러닝 모델이었으며, NLP 분야의 딥러닝은 주로 다음과 같은 핵심 기술에 의존했습니다. 다수의 개선된 LSTM 모델과 소수의 개선된 모델 일반적인 기능인 Extractor로서의 CNN 모델, Sequence to Sequence(또는 인코더-디코더) + Attention을 다양한 특정 작업에 대한 일반적인 전체 기술 프레임워크로 사용합니다.
이러한 핵심 기술의 지원을 바탕으로 NLP 분야 딥러닝의 주요 연구 목표를 정리하면 모델 레이어 깊이나 모델 매개변수 용량을 효과적으로 늘리는 것입니다. 즉, 레이어 깊이와 모델 용량을 늘리는 목표를 달성하기 위해 인코더와 디코더에 더 깊은 LSTM 또는 CNN 레이어를 어떻게 지속적으로 추가할 수 있습니까? 이러한 노력이 실제로 모델의 깊이를 지속적으로 증가시켰음에도 불구하고, 특정 과제를 해결하는 효과의 관점에서 볼 때 전체적으로는 그다지 성공적이지 않거나, 딥러닝이 아닌 방법에 비해 얻을 수 있는 이점이 크지 않습니다. .
딥러닝이 성공하지 못하는 이유는 주로 두 가지 측면 때문이라고 생각합니다. 한편으로는 특정 작업에 대한 훈련 데이터의 총량이 제한되어 있습니다. 모델의 용량이 증가할수록 더 많은 양의 훈련 데이터가 뒷받침되어야 하며, 그렇지 않으면 깊이를 달성하더라도 작업 효과를 얻을 수 없습니다. 사전 훈련 모델이 등장하기 전에는 이것이 NLP 연구 분야에서 심각한 문제임이 분명했으며, 또 다른 측면은 LSTM/CNN 특징 추출기가 표현하기에 충분히 강력하지 않다는 점이었습니다. 아무리 많은 데이터를 주어도 그 데이터에 담긴 지식을 효과적으로 흡수할 수 없기 때문에 쓸모가 없다는 뜻이다. NLP 분야에서 딥러닝의 성공적인 돌파구를 방해한 것은 주로 이 두 가지 이유일 것입니다.
학문적 연구와 산업적 적용의 관점에서 두 가지 사전 훈련 모델인 Bert/GPT의 출현은 NLP 분야의 기술적 도약을 나타내며 전체 분야에서 연구 패러다임의 변화를 가져왔습니다. 이러한 패러다임 전환의 영향은 두 가지 측면에 반영됩니다: 첫째, 일부 NLP 연구 하위 분야의 쇠퇴 또는 심지어 점진적인 소멸이고, 둘째, NLP의 다양한 하위 분야의 기술적 방법과 기술 프레임워크가 점점 더 통합되고 있습니다. 맞습니다. 기술 스택은 기본적으로 두 가지 기술 모델로 수렴됩니다. 이 두 가지 사항에 대해 별도로 이야기합시다.

영향 1: 중간 작업의 소멸

NLP는 거시적 연구 분야의 총칭으로, 다양한 구체적인 하위 분야와 하위 방향을 포함하고 있는데, 잘 분석해보면 업무 성격의 관점에서 보면 이러한 업무는 두 가지 범주로 나눌 수 있습니다. 하나는 "중간 작업"이라고 할 수 있고, 다른 하나는 "중간 작업"이라고 할 수 있으며, "최종 임무"라고 할 수도 있습니다.
일반적인 중간 작업에는 중국어 단어 분할, 품사 태깅, NER, 구문 분석, 아나포라 분석, 의미 파서 등이 포함됩니다. 이러한 작업은 일반적으로 응용 프로그램의 실제 요구 사항을 해결하지 않으며 대부분 중간 작업으로 사용됩니다. 실제 요구 사항을 해결하는 작업을 위한 단계 또는 보조 단계가 있습니다. 예를 들어 구문 분석기가 사용자에게 이 문장의 구문 분석 트리를 보여주기를 원합니다. 사용자는 볼 필요가 없습니다. NLP의 중간 단계의 처리 결과를 살펴보고 특정 작업에만 관심을 갖고 있습니다. 잘하셨나요? "최종 작업"에는 예를 들어 텍스트 분류, 텍스트 유사성 계산, 기계 번역, 텍스트 요약 등이 포함되며 그 수가 많습니다. 이러한 유형의 작업의 특징은 각 하위 필드가 특정 실제 요구 사항을 해결하고 작업 결과가 기본적으로 사용자에게 직접 제시될 수 있다는 것입니다. 그 사람 중국어가 뭔지.
'중간 작업'이 나타나서는 안 되는 것은 당연한 일이며, 이러한 작업이 존재하는 이유는 NLP 기술의 개발 수준이 부족하기 때문입니다. 기술 개발 초기에는 당시의 기술이 상대적으로 낙후되어 있었기 때문에 어려운 최종 작업을 한 번에 완료하는 것이 어려웠습니다. 예를 들어 기계 번역에서는 초기 기술로는 기계 번역을 잘하기가 매우 어렵기 때문에 연구자들은 문제를 나누어서 정복하고 이를 단어, 품사 태깅, 구문론 등 다양한 중간 단계로 분해한다. 분석, 최종 작업을 완료하기 위해 함께 작업하는 것도 불가능합니다.
하지만 Bert/GPT가 등장한 이후에는 실제로 이러한 중간 작업을 수행할 필요가 없습니다. 왜냐하면 Bert/GPT는 대량의 데이터 사전 학습을 통해 이러한 중간 작업을 언어적 특징으로 Transformer의 매개변수에 흡수했기 때문입니다. 이러한 최종 작업은 중간 프로세스를 구체적으로 모델링할 필요 없이 처음부터 끝까지 직접 해결할 수 있습니다. 여기서 가장 논란이 되는 것은 한자의 단어분할이다. 사실 이유는 같다. 어떤 글자가 단어를 형성해야 하는지. 사실 이런 부분은 걱정할 필요가 없다. LLM이 기능으로 학습시켜보자. 과제를 해결하는 데 도움이 되므로 자연스럽게 학습하게 되는데, 본 연구의 합리적인 단어 분할 방법은 우리 인간이 이해하는 단어 분할 규칙과 반드시 ​​동일하지는 않을 수도 있다.
위의 인식을 바탕으로 실제로 Bert/GPT가 등장하자마자 이러한 NLP의 중간 단계에 있는 작업은 점차 역사 단계에서 물러날 것이라는 결론에 도달해야 합니다.

영향 2: 다양한 연구 방향의 기술 경로 통합

구체적인 영향을 설명하기 전에 다음 내용을 이해하는 데 도움이 되는 또 다른 NLP 작업 분할 방법에 대해 논의하겠습니다. "최종 작업"을 더 분류하면 크게 두 가지 유형의 작업, 즉 자연어 이해 작업과 자연어 생성 작업으로 나눌 수 있습니다. "중간작업"을 제외하면 대표적인 자연어 이해 작업에는 텍스트 분류, 문장 관계 판단, 감정 경향 판단 등이 포함된다. 이러한 작업은 본질적으로 분류 작업, 즉 한 문장(관사)을 입력하거나, 두 문장을 입력하는 작업이다. 모델은 입력된 모든 콘텐츠를 참조하여 최종적으로 어떤 카테고리에 속하는지 판단합니다. 자연어 생성에는 채팅 로봇, 기계 번역, 텍스트 요약, 질문 응답 시스템 등과 같은 많은 NLP 연구 하위 방향도 포함됩니다. 생성 작업의 특징은 입력 텍스트가 주어지고 이에 따라 모델이 출력 텍스트 문자열을 생성해야 한다는 것입니다. 둘의 차이는 주로 입력과 출력의 형태에 반영되는데,
Bert/GPT 모델이 탄생한 이후 기술적인 단일화 추세가 뚜렷하게 나타나고 있다. 우선, NLP의 다양한 하위 필드의 특징 추출기가 LSTM/CNN에서 Transformer로 점차 통합됩니다. 사실 버트가 공개된 직후에는 이것이 필연적으로 기술적 트렌드가 될 것이라는 점을 깨달아야 한다. 그 이유에 대해서는 몇 년 전에
"환상을 포기하고 Transformer를 완전히 수용하기: 자연어 처리를 위한 세 가지 주요 특징 추출기 비교(CNN/RNN/TF)"(https://zhuanlan.zhihu)라는 기사를 썼습니다. com/ p/54743941)에
대한 설명과 분석이 이루어져 있으며, 관심 있는 학생들이 참고할 수 있습니다. 또한 현재 Transformer는 NLP의 여러 분야를 통합할 뿐만 아니라 다양한 이미지 처리 작업에 널리 사용되는 CNN 및 기타 모델을 점차 대체하고 있습니다. 마찬가지로 다중 모드 모델도 현재 기본적으로 Transformer 모델을 채택하고 있습니다. 이런 트랜스포머는 NLP에서 출발해 점점 더 많은 AI 분야의 트렌드를 통합해 나가고 있으며, 2020년 말 등장한 비전 트랜스포머(ViT)를 시작으로 크게 발전해 현재까지 큰 성공을 거두고 있다. 그리고 계속해서 더 많은 분야로 확산되고 있습니다. 확장의 모멘텀은 점점 더 빨라질 것입니다.
둘째, 대부분의 NLP 하위 필드의 연구 개발 모드는 모델 사전 훈련 단계 + 애플리케이션 미세 조정(Fine-tuning) 또는 애플리케이션 Zero/Few Shot Prompt 모드의 2단계 모드로 전환되었습니다. 더 정확하게 말하면 NLP의 다양한 작업은 실제로 두 가지 사전 학습 모델 프레임워크로 수렴되었습니다. 자연어 이해 작업의 경우 기술 시스템이 "양방향 언어 모델 사전 학습 + 미세 조정 적용"으로 통합되었습니다. "Bert." 모드로, 자연어 생성 작업에 대해서는 GPT로 대표되는 "autoregressive 언어 모델(즉, 왼쪽에서 오른쪽으로 단방향 언어 모델) + Zero/Few Shot Prompt" 모델로 기술 시스템을 통합합니다. 2.0. 왜 두 가지 기술적 경로로 나뉘게 되는지에 대해서는 불가피한 일이며, 이에 대해서는 나중에 설명하도록 하겠다.
이 두 모델은 비슷해 보이지만 그 이면에는 서로 다른 개발 아이디어가 담겨 있고, 향후 개발 방향도 서로 다를 것입니다. 안타깝게도 우리 대부분은 당시 GPT 개발 경로의 잠재력을 과소평가하고 Bert 모델에 비전을 집중했습니다.

2. 패러다임 전환 2.0: 사전 훈련 모델에서 일반 인공지능(AGI, Artificial General Intelligence)으로

이러한 패러다임 전환이 적용되는 기간은 대략 GPT3.0 출현 이후(6월 20일경)이며 현재까지는 이러한 패러다임 전환 과정에 있어야 합니다.
ChatGPT는 이러한 패러다임 전환을 촉발하는 핵심 노드이지만 InstructGPT가 등장하기 전에 LLM은 실제로 이러한 패러다임 전환 이전의 전환기에 있었습니다.
전환기: GPT 3.0으로 대표되는 "자동 회귀 언어 모델 + 프롬프트" 모드가 지배적인
위치를 차지하고 있으며 사람들은 일반적으로 Bert 모델에 대해 더 낙관적이며 상당한 수의 후속 기술 개선이 Bert의 경로를 따릅니다. 그러나 기술이 계속 발전함에 따라 가장 큰 LLM 모델은 GPT 3, PaLM, GLaM, Gopher, Chinchilla, MT-와 같은 GPT 3.0의 "자동 회귀 언어 모델 + 프롬프트" 모델과 거의 모두 유사하다는 것을 알게 될 것입니다. NLG, LaMDA 등도 예외 없이. 왜 그럴까요? 그 이면에는 필연적인 이유가 있을 텐데, 크게 두 가지 이유가 있지 않을까 싶습니다.
여기에 이미지 설명을 삽입하세요

우선, Google의 T5 모델은 자연어 이해와 자연어 생성 작업의 외부 표현을 형태로 통합합니다. 위 그림에서 볼 수 있듯이, 빨간색은 텍스트 분류 문제이고, 노란색은 문장 유사성 판단을 위한 회귀 또는 분류 문제로 전형적인 자연어 이해 문제이다. T5 모델에서는 이러한 자연어 이해 문제가 입력 및 출력 형태 측면에서 생성 문제와 일치한다.즉, 분류 문제를 LLM 모델에서 생성된 해당 카테고리에 대한 문자열로 변환할 수 있으므로 이해와 생성과제는 완전한 통일이 이루어지는 형태이다.
이는 자연어 생성 작업이 표현 측면에서 자연어 이해 작업과 양립할 수 있음을 보여주며, 그 반대라면 이를 수행하기 어렵다. 이것의 장점은 동일한 LLM 생성 모델이 거의 모든 NLP 문제를 해결할 수 있다는 것입니다. 그리고 Bert 모드가 여전히 채택된다면 이 LLM 모델은 생성 작업을 잘 처리할 수 없습니다. 그렇다면 우리는 확실히 한 가지 이유로 생성 모델을 사용하는 경향이 있습니다.
두 번째 이유는 제로 샷 프롬프트 또는 적은 샷 프롬프트로 좋은 작업을 수행하려면 GPT 모드를 채택해야 한다는 것입니다. 이제 다음을 증명하는 연구(참조: 언어 모델 사전 훈련에서 양방향성의 역할에 관하여)가 있습니다: 미세 조정을 사용하여 다운스트림 작업을 해결하는 경우 Bert 모드가 GPT 모드보다 낫습니다. 제로 샷/몇 샷인 경우 이 모드가 다운스트림 작업을 해결한다면 GPT 모드의 효과는 Bert 모드보다 좋습니다. 이는 생성 모델이 제로 샷/몇 샷 프롬프트 작업을 수행하는 것이 더 쉽고 Bert 모드는 이러한 방식으로 작업을 수행하는 데 자연스러운 단점이 있음을 보여줍니다. 이것이 두 번째 이유입니다.
그러나 여기에 질문이 있습니다. 왜 우리는 작업을 수행하도록 유도하는 제로 샷/몇 샷을 추구합니까? 이 문제를 명확하게 설명하려면 먼저 다른 질문, 즉 어떤 종류의 LLM 모델이 우리에게 이상적인지 알아내야 합니다.
여기에 이미지 설명을 삽입하세요

위 이미지는 이상적인 LLM의 모습을 보여줍니다. 우선 LLM은 자기주도학습 능력이 뛰어나야 합니다. 텍스트나 그림 등 세상에서 사용할 수 있는 다양한 유형의 데이터를 입력한다고 가정해 보겠습니다. 데이터에 포함된 모든 지식 포인트를 자동으로 학습할 수 있어야 하며 학습 과정에 사람의 개입이 필요하지 않으며 유연하게 적용할 수 있어야 합니다. 배운 내용을 바탕으로 실제적인 문제를 해결합니다. 데이터가 방대하기 때문에 모든 지식을 흡수하려면 지식을 저장하기 위한 많은 모델 매개변수가 필요하므로 이 모델은 거대한 모델이어야 합니다.
둘째, LLM은 NLP의 모든 하위 분야의 문제를 해결할 수 있어야 하며, 제한된 분야만 지원할 뿐만 아니라 NLP 이외의 다른 분야의 문제에도 대응할 수 있어야 하며, 어떤 분야의 질문이라도 할 수 있는 것이 가장 좋습니다. 잘 대답했습니다.
더 나아가 특정 분야의 문제를 해결하기 위해 LLM을 사용할 때에는 우리 인간에게 익숙한 표현, 즉 LLM이 인간의 명령을 이해해야 한다는 표현을 사용해야 합니다. 이는 사람들이 LLM 모델에 적응할 수 있도록 하는 것이 아니라 LLM을 사람에게 적용하는 것을 반영합니다. 좋은 프롬프트를 찾기 위해 다양한 프롬프트를 시도하기 위해 머리를 쓰는 등 LLM에 적응하는 사람들의 전형적인 예는 당면한 문제를 잘 해결할 수 있습니다. 이 점과 관련하여 위 그림은 사람들이 LLM 모델을 사용하는 데 좋은 인터페이스 형식이 무엇인지 설명하기 위해 인간과 LLM 간의 상호 작용 인터페이스 계층에서 몇 가지 예를 보여줍니다.
이상적인 LLM을 읽은 후 다시 위의 나머지 질문을 설명하겠습니다. 왜 우리는 작업을 수행하도록 유도하는 제로 샷/몇 샷 프롬프트를 추구합니까? 두 가지 이유가 있습니다.
첫째, 이 LLM 모델의 규모가 매우 커야 하며, 이 모델을 만들거나 이 모델의 매개변수를 변경할 수 있는 기관이 극소수여야 합니다. 작업의 수요 측면은 수천 개의 중소 규모 조직 또는 심지어 개인입니다. 모델을 오픈 소스로 제공하더라도 미세 조정 모드를 사용하여 모델 매개변수를 수정하는 것은 물론이고 모델을 배포할 수도 없습니다. . 따라서 작업 수요자가 모델 매개변수를 수정하지 않고 작업을 완료할 수 있는 방식, 즉 Fine-tuning 모드 대신 프롬프트 모드를 사용하여 작업을 완료할 수 있는 방식을 추구해야 합니다(방향이 소프트 프롬프트 기술은 이러한 개발 추세에 위배됩니다). 모델 제작자는 LLM을 공공 서비스로 사용하고 LLM as Service 모드로 운영합니다. 서비스 지원자로서 끊임없이 변화하는 사용자 요구를 고려하여 LLM 모델 제작자는 LLM이 가능한 많은 유형의 작업을 완료할 수 있도록 추구해야 합니다. 반드시 AGI를 추구하겠습니다. .
둘째, LLM의 추론 능력을 향상시키는 제로 샷 프롬프트, 소수 샷 프롬프트, 심지어 CoT(Chain of Thought) 프롬프트가 위 그림의 인터페이스 계층에 있는 기존 기술입니다. 구체적으로 제로샷 프롬프팅의 원래 의도는 실제로 인간과 LLM 사이의 이상적인 인터페이스로, 인간이 익숙한 작업 표현을 직접 사용하여 LLM이 일을 하게 하지만 LLM이 잘 이해되지 않고 그 효과가 더 큰 것으로 나타났다. 좋지 않다. 연구를 계속한 후에 저는 다음과 같은 사실을 발견했습니다. 특정 작업에 대해 LLM에 몇 가지 예를 제공하고 이 예를 사용하여 작업 설명을 표현하면 제로 샷 프롬프트보다 효과가 더 좋을 것이므로 모두가 더 나은 소수 샷 프롬프트 기술을 공부하게 되었습니다. . 원래 우리는 LLM이 특정 작업을 수행하기 위해 인간이 일반적으로 사용하는 명령 방법을 사용할 수 있기를 희망했지만 현재 기술로는 이를 수행할 수 없으므로 차선책은 이러한 대체 기술을 사용하여 인간 작업 요구 사항을 표현하는 것입니다.
위의 논리를 이해하면 다음과 같은 결론을 쉽게 내릴 수 있습니다. 몇 번의 샷 프롬프트(In Context Learning이라고도 함)는 단지 과도기적 기술일 뿐입니다. 작업을 보다 자연스럽게 설명할 수 있고 LLM이 이를 이해할 수 있다면 주저 없이 이러한 전환 기술을 포기할 것입니다. 작업 요구 사항을 설명하기 위해 이러한 방법을 사용하는 것은 인간의 사용 습관에 맞지 않는다는 것이 분명한 이유입니다.
이것이 제가 GPT 3.0+Prompting을 과도기 기술로 나열한 이유입니다. ChatGPT의 출현은 이러한 상황을 바꾸고 Prompting을 Instruct로 대체하여 새로운 기술 패러다임 전환을 가져오고 여러 후속 영향을 미쳤습니다.

영향 1: 인간을 위한 새로운 대화형 인터페이스에 LLM 적용

이상적인 LLM의 맥락에서 기술적 기여를 더 잘 이해하기 위해 ChatGPT를 다시 살펴보겠습니다. ChatGPT는 모든 기존 기술 중에서 이상적인 LLM에 가장 가깝습니다. ChatGPT의 가장 두드러진 특징을 요약한다면 "강력한 능력, 이해력"이라는 여덟 단어를 사용하겠습니다.
내 생각에 "강력한" 점은 ChatGPT의 기반이 되는 LLM GPT3.5 기반에 주로 기인해야 한다고 생각합니다. ChatGPT가 인위적으로 라벨링된 데이터를 추가했지만 그 규모가 수만개에 불과하기 때문에 GPT 3.5 모델을 훈련하는 데 사용된 수천억 개의 토큰 수준 데이터와 비교하면 그 안에 담긴 세계 지식의 양( 데이터) 및 상식)은 거의 무시할 수 있는 바다의 물방울로 설명될 수 있으며 기본적으로 GPT 3.5의 기본 기능을 향상시키는 데 아무런 역할을 하지 않습니다. 따라서 강력한 기능은 주로 숨겨진 GPT 3.5에서 나와야 합니다. GPT 3.5는 이상적인 LLM 모델의 거대 모델을 벤치마킹합니다.
그렇다면 ChatGPT는 GPT 3.5 모델에 새로운 지식을 주입했습니까? 이 지식은 수동으로 라벨링된 수만 개의 데이터에 포함되어 있는데, 주입되는 것은 세계 지식이 아니라 인간의 선호 지식이다. 이른바 '인간 선호'에는 여러 가지 의미가 내포되어 있다. 첫째, 인간이 어떤 일을 표현하는 관례적인 방식이다. 예를 들어, 사람들은 "기계 번역"의 필요성을 표현하기 위해 "다음 문장을 중국어에서 영어로 번역하세요"라고 말하는 데 익숙하지만 LLM은 인간이 아니므로 이 문장이 무엇을 의미하는지 어떻게 이해할 수 있습니까? LLM이 이 명령의 의미를 이해하고 올바르게 실행할 수 있도록 하는 방법을 찾아야 합니다. 따라서 ChatGPT는 데이터에 수동으로 레이블을 지정하여 이러한 종류의 지식을 GPT 3.5에 주입하므로 LLM은 "이해"의 핵심인 인간 명령을 이해할 수 있습니다. 둘째, 인간에게는 무엇이 좋은 답이고 무엇이 나쁜 답인지에 대한 나름의 기준이 있다. 예를 들어 좀 더 자세한 답은 좋다, 차별적인 내용이 있는 답은 나쁘다 등이다. 이것은 좋은 대답과 나쁜 대답에 대한 인간의 선호입니다. 이러한 유형의 정보는 사람들이 보상 모델을 통해 LLM에 피드백하는 데이터에 포함됩니다. 전반적으로 ChatGPT는 인간의 선호도 지식을 GPT 3.5에 주입하여 인간의 언어를 이해하고 더 예의바른 LLM을 얻습니다.
ChatGPT의 가장 큰 기여는 기본적으로 이상적인 LLM의 인터페이스 계층을 실현하고 LLM이 사람들의 관례적인 명령 표현에 적응할 수 있도록 하는 데 있습니다. 작업 명령(지시 기술이 나오기 전에 프롬프트 기술이 했던 작업)이 LLM의 사용 편의성과 사용자 경험을 향상시킵니다. 이 문제를 처음으로 깨닫고 좋은 해결책을 제시한 것은 InstructGPT/ChatGPT였으며, 이는 가장 큰 기술적 기여이기도 합니다. 이전의 몇 번의 샷 프롬프트와 비교하여 인간의 표현 습관에 더 부합하고 LLM과 상호 작용하는 인간-컴퓨터 인터페이스 기술입니다.
그리고 이는 후속 LLM 모델이 LLM을 더욱 순종적으로 만들기 위해 사용하기 쉬운 인간-기계 인터페이스에 대한 추가 작업을 계속하도록 영감을 줄 것입니다.

영향 2: 많은 NLP 하위 필드가 더 이상 독립적인 연구 가치를 갖지 않습니다.

NLP 분야에 관한 한, 이러한 패러다임 전환은 현재 독립적으로 존재하는 많은 NLP 연구 분야가 LLM 기술 시스템에 포함되며, 이후에는 더 이상 독립적으로 존재하지 않고 점차 사라지게 됨을 의미합니다. 첫 번째 패러다임 전환 이후 NLP의 많은 "중간 작업"이 계속 독립적인 연구 분야로 존재하지만 더 이상 필요하지 않지만 대부분의 "최종 작업"은 여전히 ​​독립적인 연구 분야로 존재하며 "사전 훈련"으로 전환됩니다. " +fine-tuning의 프레임워크 하에서 현장 고유의 문제에 직면하여 새로운 개선 솔루션이 차례로 제안되었습니다.
현재 연구에 따르면 많은 NLP 작업의 경우 LLM 모델의 크기가 커질수록 효과가 크게 향상됩니다. 이를 바탕으로 다음과 같은 추론이 도출될 수 있다고 생각합니다: 특정 분야에서 소위 "특이한" 문제의 대부분은 도메인 지식의 부족으로 인해 발생하는 겉모습에 불과할 가능성이 높습니다. 소위 고유한 현장 문제라고 불리는 이 문제는 매우 잘 해결될 수 있으며 실제로 특정 문제 분야에 집중할 필요도 없고 전용 솔루션을 찾기 위해 열심히 생각할 필요도 없습니다. 아마도 AGI의 진실은 놀라울 정도로 간단할 것입니다. 이 분야의 더 많은 데이터를 LLM에 제공하고 LLM이 스스로 더 많은 지식을 학습하도록 하면 됩니다.
이러한 맥락에서 ChatGPT는 이제 이상적인 LLM 모델을 직접적으로 추구할 수 있음을 증명하며, 미래 기술 개발 추세는 사전 학습 데이터의 다양성을 높여 점점 더 큰 LLM 모델을 추구해야 합니다. 점점 더 많은 도메인을 포괄하는 LLM은 사전 학습 과정을 통해 도메인 데이터로부터 도메인 지식을 독립적으로 학습하고 모델 규모가 계속 증가함에 따라 많은 문제가 해결됩니다. 연구의 초점은 특정 분야의 특정 문제를 해결하기보다는 이상적인 LLM 모델을 구성하는 방법에 있습니다. 이러한 방식으로 점점 더 많은 NLP 하위 분야가 LLM의 기술 시스템에 포함되고 점차 사라질 것입니다.
제 생각에는 특정 분야에 대한 독립적인 연구를 즉각 중단해야 하는지 판단하기 위해 판단 기준은 다음 두 가지 방법 중 하나를 고려하여 채택할 수 있습니다. 첫째, LLM의 연구 효과가 특정 작업에서 인간의 성과를 초과하는지 여부를 판단합니다. , 그런 분들을 위해 LLM의 효과는 인간의 연구 분야를 뛰어넘고, 독립적인 연구가 필요하지 않습니다. 예를 들어, GLUE 및 SuperGLUE 테스트 세트의 많은 작업에 대해 현재 LLM 효과는 인간의 성능을 초과했으며 이 데이터 세트와 밀접하게 관련된 연구 분야는 독립적으로 계속 존재할 필요가 없습니다. 둘째, 두 모드의 작업 효과를 비교하면 첫 번째 모드는 더 큰 도메인별 데이터를 사용하여 Fine-tuning이고 두 번째 모드는 Few-Shot Prompting 또는 지시 기반 방법입니다. 두 번째 방법의 효과가 첫 번째 방법의 효과에 도달하거나 초과하는 경우 해당 분야가 독립적으로 계속 존재할 필요가 없음을 의미합니다. 이 기준으로 보면 사실 많은 연구 분야에서는 여전히 (이 모델 분야의 훈련 데이터가 많기 때문에) 미세 조정의 효과가 지배적이며, 독립적으로 존재할 수도 있을 것 같습니다. 그러나 모델의 크기가 커짐에 따라 많은 작업의 소수 샷 유발 효과가 지속적으로 커지는 점을 고려하면, 대형 모델의 출현으로 이러한 변곡점은 단기적으로 도달할 가능성이 높습니다.
위의 추측이 사실이라면 다음과 같은 잔인한 사실을 의미하게 됩니다. NLP 분야의 많은 연구자들은 어디로 가야 할지, 해당 분야의 독특한 문제를 계속해서 연구해야 할지 선택의 기로에 서게 될 것입니다. 아니면 덜 유망해 보이는 접근 방식을 포기하고 대신 더 나은 LLM을 구축하시겠습니까? LLM 구축으로 전환하기로 결정한 경우 이를 수행할 수 있는 능력과 조건을 갖춘 기관은 어디입니까? 이 질문에 대한 당신의 대답은 무엇입니까?

영향 3: NLP 이외의 더 많은 연구 분야가 LLM 기술 시스템에 포함될 것입니다.

AGI의 관점에서 앞서 설명한 이상적인 LLM 모델을 언급하면 ​​AGI가 수행할 수 있는 작업은 NLP 분야나 한두 가지 학문에만 국한되어서는 안 되며, 이상적인 LLM은 도메인 독립적인 일반 인공 지능 모델이어야 합니다. , 한두 가지 분야에서 잘하고 있지만, 이러한 작업만 할 수 있다는 의미는 아닙니다. ChatGPT의 출현은 이 시기에 AGI를 추구하는 것이 가능하다는 것을 입증했으며 이제는 "현장 규율"의 사고 제약을 제거해야 할 때입니다.
ChatGPT는 유창한 대화 형식으로 다양한 NLP 작업을 해결하는 능력을 입증하는 것 외에도 강력한 코딩 기능도 갖추고 있습니다. 당연히 점점 더 많은 연구 분야가 LLM 시스템에 통합되어 일반 인공 지능의 일부가 될 것입니다.
여기에 이미지 설명을 삽입하세요

LLM은 NLP에서 외부 세계로 확장되며 자연스러운 선택은 이미지 처리 및 다중 모드 관련 작업입니다. 현재 일부 작업에서는 다중 모드를 통합하여 LLM을 다중 모드 입력 및 출력을 지원하는 범용 인간-기계 인터페이스로 만들려고 노력하고 있습니다. 일반적인 예로는 위에 표시된 것처럼 DeepMind의 Flamingo 및 Microsoft의 "언어 모델은 범용 인터페이스입니다"가 있습니다. 이 접근법의 개념적 구조.
내 판단으로는 그것이 이미지이든 다중 양식이든, 유용한 기능이 되기 위한 LLM의 향후 통합이 우리가 상상했던 것보다 느릴 수 있다는 것입니다. 가장 큰 이유는 이미지 분야가 지난 2년 동안 Bert의 사전 학습 접근 방식을 모방해 왔음에도 불구하고, 이미지 데이터로부터 지식을 학습하는 모델의 능력을 해방시키기 위해 자기 지도 학습을 도입하려고 했기 때문입니다. 대표적인 기술로는 '대조 학습'이 있습니다. " 및 MAE. 두 가지 다른 기술 경로. 그러나 현재의 효과로 볼 때 기술적 진보가 많이 이루어졌음에도 불구하고 아직 이 길을 통과하지 못한 것으로 보인다. 가져오는 이점은 Bert 또는 GPT보다 훨씬 열등하며 NLP 다운스트림 작업에 중요하게 적용됩니다. 따라서 이미지 데이터의 잠재력을 활용하려면 이미지 전처리 모델을 심층적으로 탐색해야 하며 이로 인해 LLM 대형 모델로 통합되는 시간이 지연됩니다. 물론 언젠가 이 길이 뚫리면 NLP 분야의 현재 상황이 재현될 가능성이 높다. 즉, 영상 처리의 다양한 연구 하위 분야가 점차 사라지고 대규모 LLM으로 통합되어 직접 터미널 작업을 완료하세요.
이미지 및 다중 양식 외에도 다른 분야도 점차 이상적인 LLM에 포함될 것이 분명하며, 이러한 방향은 상승세에 있으며 높은 가치를 지닌 연구 주제입니다.
이상은 패러다임 전환에 대한 개인적인 생각이며, 다음으로 GPT 3.0 이후 LLM 모델의 주류 기술 발전을 정리해보자. 이상적인 LLM 모델에서 볼 수 있듯이 관련 기술은 실제로 두 가지 범주로 나눌 수 있습니다. 하나는 LLM 모델이 데이터에서 지식을 흡수하는 방법에 관한 것이며 모델 규모 성장이 LLM의 지식 흡수 능력에 미치는 영향도 포함합니다. 카테고리는 사람들이 LLM의 고유한 능력을 사용하여 작업을 해결하는 방법에 대한 인간-기계 인터페이스에는 상황별 학습 및 교육의 두 가지 모드가 포함됩니다. LLM 추론 기술인 CoT(Chain of Thought) 프롬프트도 본질적으로 In Context Learning에 속하는데, 그게 더 중요하기 때문에 따로 꺼내서 이야기하겠습니다.

02. 학습자: 끝없는 데이터에서 방대한 지식으로

현재 연구 결과로 볼 때 Transformer는 충분히 강력한 특징 추출기이므로 특별한 개선이 필요하지 않습니다. 그렇다면 사전 훈련 과정을 통해 Transformer는 무엇을 배웠을까요? 지식은 어떻게 접근되는가? 잘못된 지식을 어떻게 바로잡을 수 있나요? 이 섹션에서는 이 분야의 연구 진행 상황을 설명합니다.

1. 지식으로 가는 길: LLM은 어떤 지식을 배웠는가

LLM은 방대한 무료 텍스트를 통해 많은 지식을 학습했는데, 지식을 크게 분류하면 언어 지식과 세계 지식 두 가지로 나눌 수 있습니다.
언어지식은 인간이나 기계가 자연어를 이해하는 데 도움이 되는 형태론, 품사, 구문, 의미론 등의 지식을 말한다. LLM이 언어 지식을 포착할 수 있는지에 대한 연구는 오랜 역사를 가지고 있으며, Bert의 출현 이후 관련 연구가 있어 왔으며, 다양한 실험을 통해 LLM이 다양한 수준의 언어 지식을 학습할 수 있다는 것이 완전히 입증되었다는 결론을 얻었습니다. 모델을 사전 학습한 후 다양한 언어 이해 자연어 작업이 크게 향상되는 가장 중요한 이유 중 하나입니다. 또한 어휘, 품사, 구문과 같은 얕은 언어 지식은 저수준 및 중간 수준의 Transformer에 저장되는 반면, 의미 지식과 같은 추상적인 언어 지식은 저장된다는 사실도 다양한 연구를 통해 입증되었습니다. Transformer의 중간 수준 및 상위 수준 구조에 널리 분포되어 있습니다.
세계지식은 이 세상에서 일어나는 실제 사건(사실지식)과 상식지식(상식지식)을 가리킨다. 예를 들어 "바이든은 현 미국 대통령이다", "바이든은 미국인이다", "젤렌스키 우크라이나 대통령이 바이든 미국 대통령을 만났다" 등은 모두 바이든과 관련된 사실적 지식이다. 두 눈", "해가 뜬다" 등이다. 동쪽에서'는 상식적인 지식이다. LLM 모델이 세계 지식을 학습할 수 있는지에 대한 많은 연구도 있으며 결론은 상대적으로 일관됩니다. LLM은 훈련 데이터에서 많은 세계 지식을 흡수하며 이러한 종류의 지식은 주로 중간 및 상위 계층에 분산됩니다. Transformer, 특히 중간 계층에 있습니다. 더욱이 Transformer 모델의 깊이가 증가함에 따라 학습할 수 있는 지식의 양은 기하급수적으로 증가합니다(참조: BERTnesia: Investigating the Capture and Forgeting of Knowledge in BERT). 실제로 LLM을 모델 매개변수로 구현된 암시적 지식 맵으로 간주하시는데, 이렇게 이해하시면 전혀 문제가 없다고 생각합니다.
"언제 수십억 단어의 사전 훈련 데이터가 필요합니까?" 이 기사는 사전 훈련 모델이 학습한 지식의 양과 훈련 데이터의 양 사이의 관계를 연구합니다. 결론은 다음과 같습니다. Bert 유형 언어 모델의 경우, 천만~1억 단어의 코퍼스만으로도 구문, 의미 등의 언어 지식을 잘 배울 수 있지만, 사실 지식을 배우려면 더 많은 훈련 데이터가 필요합니다. 이런 결론은 실제로 예상되는 것인데, 결국 언어지식은 상대적으로 제한적이고 정적인 반면, 사실지식은 거대하고 끊임없이 변화한다. 현재 연구에서는 훈련 데이터의 양이 증가할수록 다양한 다운스트림 작업에서 사전 훈련 모델이 더 효과적이라는 것이 입증되었으며, 이는 증분 훈련 데이터에서 학습되는 것이 주로 세계 지식임을 보여줍니다.

2. 기억의 장소: LLM이 지식에 접근하는 방법

위에서 보면 LLM이 실제로 데이터를 통해 많은 언어와 세계 지식을 배웠음을 알 수 있습니다. 그렇다면 특정 지식에 대해 LLM은 이를 어디에 저장합니까? 어떻게 추출되었나요? 이것은 또한 흥미로운 질문입니다.
분명히 지식은 Transformer의 모델 매개변수에 저장되어야 합니다. Transformer의 구조에서 모델 매개변수는 두 부분으로 구성됩니다. MHA(Multi-Head Attention) 부분은 전체 매개변수의 약 1/3을 차지하고 매개변수의 2/3는 FFN 구조에 집중되어 있습니다. MHA는 주로 단어나 지식 사이의 상관 강도를 계산하고 전체 정보를 통합하는 데 사용되며, 지식 간의 연결을 구축할 가능성이 더 높으며, 특정 지식 포인트가 저장되지 않을 확률이 높기 때문에 쉽게 사용할 수 있습니다. LLM 모델의 지식주제를 추론하고 이는 Transformer의 FFN 구조에 저장됩니다.
여기에 이미지 설명을 삽입하세요

그러나 그러한 포지셔닝의 세분성은 여전히 ​​너무 조악하고 특정 지식이 어떻게 저장되고 추출되는지 대답할 수 없습니다. -capital- of, China> 여기서 "is-capital-of"는 엔터티 간의 관계를 나타냅니다. 이 지식은 LLM의 어디에 저장되어 있나요?
"Transformer Feed-Forward Layers Are Key-Value Memory"는 Transformer의 FFN을 대량의 특정 지식을 저장하는 키-값 메모리로 간주하는 비교적 새로운 관찰 관점을 제공합니다. 위 사진에서 볼 수 있듯이 (사진의 왼쪽은 원본 논문의 사진으로 실제로는 이해가 쉽지 않습니다. 이해를 돕기 위해 오른쪽에 주석이 달린 사진을 보시면 됩니다.) FFN의 첫 번째 레이어 는 키 계층인 MLP 넓은 은닉 계층이고, 두 번째 계층은 값 계층인 MLP 좁은 은닉 계층입니다. FFN의 입력 레이어는 실제로 특정 단어에 해당하는 MHA의 출력 결과 Embedding, 즉 전체 입력 문장의 전체 정보를 나타내는 Self Attention을 통해 전체 문장과 관련된 입력 컨텍스트를 통합하는 Embedding입니다.
Key 레이어의 각 뉴런 노드는 한 쌍의 <Key, Value> 정보를 기록합니다. 예를 들어, 위 그림에서 FFN의 첫 번째 Hidden Layer의 첫 번째 노드에 대해서는 <Beijing, is-capital-of, China>에 대한 지식을 기록하고 있을 수 있습니다. 실제로 노드에 해당하는 키 벡터는 입력 레이어의 노드와 각 노드의 가중치 벡터를 의미하고, 해당 값 벡터는 두 번째 값 레이어의 노드와 각 노드 간 연결의 가중치 벡터를 의미합니다. FFN 레이어. 각 뉴런의 키 벡터는 패턴 탐지기인 입력에서 특정 언어 또는 지식 패턴을 식별하는 데 사용됩니다. 입력에 검출할 특정 패턴이 포함되어 있으면 벡터 내적에 의해 입력 벡터와 노드의 키 가중치를 계산하고 Relu를 추가하여 큰 수치 응답을 형성합니다. 즉, 패턴이 검출되었음을 의미합니다. 따라서 응답 값은 노드의 Value Weight 벡터를 통해 FFN의 두 번째 계층으로 전파됩니다. 이는 Value 벡터의 값에 응답값을 부여한 후 두 번째 레이어 Value 레이어의 각 노드의 출력에 전달하여 반영하는 것과 같습니다. 이렇게 FFN의 순방향 전파 계산 과정은 Key를 통해 특정 지식 모드를 감지한 후 해당 Value를 꺼내어 FFN의 두 번째 레이어 출력에 반영하는 것처럼 보입니다. 물론, FFN의 두 번째 계층에 있는 각 노드는 FFN의 Key 계층에 있는 노드 정보를 모두 수집하게 되므로 혼합 응답이고, Value 계층에 있는 모든 노드의 혼합 응답은 확률 분포 정보로 해석할 수 있습니다. 출력 단어를 나타냅니다.
복잡하게 들릴 수도 있으므로 극단적인 예를 들어 설명하겠습니다. 위 그림의 노드는 <Beijing, is-capital-of, China>에 대한 지식을 기록하는 Key-Value 메모리라고 가정하고, 해당 Key 벡터를 사용하여 "The Capital of China"의 지식 모델을 탐지한다. ...", 해당 값 벡터는 기본적으로 "Beijing"이라는 단어의 임베딩에 가까운 벡터를 저장합니다. Transformer의 입력이 "중국의 수도는 [마스크]"인 경우 노드는 입력 레이어에서 이 지식 패턴을 감지하므로 큰 응답 출력이 생성됩니다. Key 레이어의 다른 뉴런은 이 입력에 대해 아무런 응답이 없다고 가정하면 Value 레이어의 해당 노드는 실제로 "Beijing"의 Value에 해당하는 단어 임베딩만 수신하고 다음을 통해 추가 수치 값을 수행합니다. 큰 응답 값이 확대됩니다. 따라서 Mask 위치에 해당하는 출력은 자연스럽게 "Beijing"이라는 단어를 출력하게 됩니다. 기본적으로 이 과정은 복잡해 보이지만 실제로는 매우 간단합니다.
더욱이 이 기사에서는 하위 수준 Transformer는 문장의 표면 모드에 응답하고, 상위 수준 Transformer는 의미 모드에 응답한다는 점, 즉 하위 수준 FFN은 다음과 같은 표면 수준 지식을 저장한다는 점을 지적했습니다. 문법 및 구문, 중급 및 고급 저장 의미론 및 사실적 개념 지식 이 연구와 기타 연구 결론은 만장일치입니다.
FFN을 Key-Value 메모리로 삼는다는 생각이 최종 정답은 아닐 수도 있지만, 최종 정답과의 거리가 그리 멀지는 않을까 추측해 봅니다.

3. 지식수정액: LLM에 저장된 지식을 수정하는 방법

우리는 특정 세계 지식이 하나 또는 일부 FFN 노드의 매개변수에 저장되어 있다는 것을 알고 있으므로 자연스럽게 또 다른 질문이 발생합니다. LLM 모델에 저장된 잘못되거나 오래된 지식을 수정할 수 있습니까? 예를 들어, "현재 영국 총리는 누구입니까?"라는 질문에 대해 최근 몇 년 동안 영국 총리가 자주 바뀌는 것을 고려할 때 LLM이 "Boris" 또는 "Sunak"을 수출하는 경향이 더 높다고 추측하십니까? "? 당연히 훈련 데이터에는 "Boris"를 포함하는 데이터가 더 많아지게 되는데, 이 경우 LLM이 잘못된 답을 줄 가능성이 매우 높기 때문에 LLM에 저장된 오래된 지식을 수정해야 할 필요성이 있습니다.
요약하면 현재 LLM에 포함된 지식을 수정하는 세 가지 방법이 있습니다.
첫 번째 방법은 교육 데이터 소스의 지식을 수정하는 것입니다. "언어 모델의 사실적 지식을 훈련 데이터로 추적하는 방향"이라는 기사의 연구 목표는 다음과 같습니다. 특정 지식에 대해 LLM이 이 지식을 학습하게 만든 훈련 데이터를 찾을 수 있습니까? 대답은 '예'입니다. 이는 지식에 해당하는 훈련 데이터의 소스를 추적할 수 있음을 의미합니다. 이 기술을 사용하면 지식을 삭제하려는 경우 먼저 해당 데이터 소스를 찾아 데이터 소스를 삭제한 다음 전체 LLM 모델을 재교육하여 관련 지식 삭제 목적을 달성할 수 있습니다. LLM에서. 그런데 여기에 문제가 있는데, 지식의 작은 부분을 수정하면 모델 사전 훈련을 다시 해야 하는데 비용이 너무 많이 든다는 것입니다. 따라서 이 방법은 개발 전망이 별로 없으며 특정 유형의 데이터를 일회성으로 대규모로 삭제하는 데 더 적합할 수 있으며 소수의 정기적인 지식 수정 시나리오에는 적합하지 않습니다. 편견 제거에 더 적합할 수 있습니다. 독성 콘텐츠가 처리될 때까지 기다리세요.
두 번째 유형의 방법은 LLM 모델을 미세 조정하여 지식을 수정하는 것입니다. 생각할 수 있는 직관적인 방법은 수정해야 할 새로운 지식을 기반으로 훈련 데이터를 구성한 다음 LLM 모델이 이 훈련 데이터에 대해 미세 조정하도록 하여 LLM이 새로운 지식을 기억하고 잊어버리도록 안내하는 것입니다. 오래된 지식. 이 방법은 간단하고 직관적이지만 몇 가지 문제도 있는데, 첫째, 재난 망각 문제가 발생한다. 잊어버리게 되어 일부 하위 작업의 효과가 감소하게 됩니다. 또한, 현재 LLM 모델은 크기가 매우 크기 때문에 미세 조정을 하더라도 빈도가 빈번할 경우 실제로 비용이 상당히 높다. 이 방법에 관심이 있는 사람은 "변압기 모델의 메모리 수정"을 참조할 수 있습니다.
또 다른 유형의 방법은 LLM의 일부 지식에 해당하는 모델 매개변수를 직접 수정하여 지식을 수정하는 것입니다. 기존 지식인 <영국, 현 총리 보리스>를 <영국, 현 총리 수낙>으로 수정하고 싶다고 가정해 보겠습니다. 먼저 LLM 모델 매개변수에 기존 지식을 저장하는 FFN 노드를 찾는 방법을 찾은 다음 FFN에서 해당 모델 매개변수를 강제로 조정 및 변경하여 기존 지식을 새로운 지식으로 대체할 수 있습니다. 이 방법에는 두 가지 핵심 기술이 포함되어 있음을 알 수 있습니다: 첫째, LLM 매개변수 공간에서 지식의 특정 저장 위치를 ​​찾는 방법, 둘째, 기존 지식을 새로운 지식으로 수정하기 위해 모델 매개변수를 수정하는 방법입니다. . 이러한 기술에 대한 자세한 내용은 "GPT에서 사실 연관성 찾기 및 편집" 및 "변환기에서 메모리 대량 편집"을 참조하세요. LLM 지식을 수정하는 이러한 과정을 이해하는 것은 실제로 LLM의 내부 작동 방식을 더 깊이 이해하는 데 매우 도움이 됩니다.

03. 규모효과: LLM이 점점 커지면 일어나는 일

최근 몇 년 동안 LLM 모델의 규모가 급속히 증가하고 있으며 현재 가장 효과적인 LLM 모델은 매개변수 규모가 1000억(100B)을 초과하는 것으로 알려져 있습니다. 예를 들어 OpenAI의 GPT 3의 규모는 175B, Google의 LaMDA의 규모는 137B, PaLM의 규모는 540B, DeepMind의 Gogher의 규모는 280B 등입니다. 중국에는 스케일 130B의 Zhiyuan GLM, 스케일 200B의 Huawei의 "Pangu", 스케일 260B의 Baidu의 "Wenxin", 스케일 245B의 Inspur의 "Yuan 1.0"과 같은 중국 거대 모델도 있습니다. . 그렇다면 자연스러운 질문은 LLM 모델의 크기가 커지면 어떻게 될까요?
사전 훈련 모델의 적용은 사전 훈련 단계와 특정 장면 적용 단계의 두 단계로 이루어지는 경우가 많습니다. 사전 훈련 단계에서 최적화 목표는 교차 엔트로피이며 GPT와 같은 자동 회귀 언어 모델의 경우 LLM이 다음 단어를 올바르게 예측하는지 확인하는 것이지만 장면 적용 단계에서는 일반적으로 평가에 따라 다릅니다. 특정 장면의 인덱스입니다. 일반적으로 우리는 LLM 모델이 사전 훈련 단계에서 더 나은 지표를 가지면 자연스럽게 다운스트림 작업을 해결하는 능력이 더 강해질 것이라고 직관합니다. 그러나 그것은 사실이 아닙니다. 기존 연구에 따르면 사전 훈련 단계의 최적화 지수는 후속 작업과 긍정적인 상관관계를 보이지만 완전히 긍정적인 것은 아닙니다. 즉, 사전 훈련 단계의 지표만 보고 LLM 모델이 충분히 좋은지 판단하는 것만으로는 충분하지 않습니다. 이를 바탕으로 LLM 모델이 증가함에 따라 영향이 무엇인지 이 두 단계를 별도로 살펴보겠습니다.
여기에 이미지 설명을 삽입하세요

먼저 모델 크기가 점진적으로 증가함에 따라 사전 학습 단계에서 어떤 일이 발생하는지 살펴보겠습니다. OpenAI는 "신경 언어 모델의 확장 법칙"에서 이 문제를 구체적으로 연구하고 LLM 모델이 따르는 "확장 법칙"을 제안했습니다. 위 그림에서 볼 수 있듯이, 본 연구는 독립적으로 훈련 데이터의 양, 모델 매개변수 규모를 늘리거나 모델 훈련 시간을 연장(예: 1 Epoch에서 2 Epoch로)할 때 사전 훈련된 모델의 손실이 증가한다는 것을 증명합니다. 테스트 세트의 효과는 단조롭게 감소합니다. 즉, 모델의 효과가 점점 좋아지고 있습니다.
세 가지 요소가 모두 중요하기 때문에 실제로 사전 훈련을 할 때 컴퓨팅 파워를 어떻게 할당할지에 대한 의사 결정 문제가 있습니다. LLM이 주어지는데, 그럼 데이터 양을 늘리고 모델 매개변수를 줄여야 할까요? 아니면 데이터의 양과 모델의 크기가 동시에 증가하여 학습 단계 수가 줄어든다는 뜻인가요? 특정 요소의 규모가 증가하면 전체 컴퓨팅 성능을 변경하지 않고 유지하려면 다른 요소의 규모를 줄여야 하므로 여기에는 다양한 컴퓨팅 성능 분배 방식이 있습니다. 결국 OpenAI는 훈련 데이터의 양과 모델 매개변수의 양을 동시에 늘리는 방법을 선택했지만, 훈련 단계 수를 줄이기 위해 조기 중지 전략(early stop)을 채택했습니다. 이는 훈련 데이터 양과 모델 매개변수라는 두 가지 요소에 대해 하나만 증가시키는 것은 최선의 선택이 아니며, 일정 비율에 따라 두 요소를 동시에 증가시키는 것이 더 낫다는 것을 증명하기 때문입니다. 모델 매개변수를 늘리는 데 우선순위를 두고 훈련 데이터의 양을 늘리는 것입니다. LLM 훈련을 위한 총 컴퓨팅 파워 예산이 10배 증가했다고 가정하면, 모델 매개변수의 양은 5.5배, 훈련 데이터의 양은 1.8배 증가해야 하는데 이때 모델이 가장 잘 작동합니다. .
DeepMind의 연구(참조: Training Compute-Optimal Large Language Models)에서는 이 문제를 더 깊이 탐구했으며 기본 결론은 OpenAI의 결론과 유사합니다. 그러나 많은 대형 모델은 사전 훈련을 수행할 때 이를 고려하지 않습니다. 많은 대형 LLM 모델은 모델 매개변수를 단조롭게 늘리고 훈련 데이터의 양을 고정할 뿐입니다. 이러한 접근 방식은 실제로 잘못된 것이며 LLM 모델의 잠재력을 제한합니다. 그러나 둘 사이의 비례 관계를 수정하고 훈련 데이터의 양과 모델 매개변수의 양이 똑같이 중요하다고 믿습니다. 즉, LLM 훈련을 위한 컴퓨팅 파워의 총 예산이 10배 증가했다고 가정하면, 모델이 가장 잘 작동하려면 모델 매개변수를 훈련 데이터 양의 3.3배, 3.3배로 늘려야 합니다.
이는 훈련 데이터의 양을 늘리는 것이 이전에 생각했던 것보다 더 중요하다는 것을 의미합니다. 이러한 인식을 바탕으로 DeepMind는 Chinchilla 모델을 설계할 때 컴퓨팅 전력 분배 측면에서 다른 구성을 선택했습니다. 표준 데이터 볼륨이 300B이고 모델 매개변수 볼륨이 280B인 Gopher 모델의 경우 Chinchilla는 훈련 데이터를 다음과 같이 늘리는 것을 선택했습니다. 4번이지만 모델의 매개변수는 Gopher의 4분의 1인 70B 정도로 감소합니다. 그러나 사전 훈련 지표나 많은 하위 작업 지표에 관계없이 Chinchilla는 더 큰 Gopher보다 낫습니다.
이는 우리에게 다음과 같은 깨달음을 가져다 줍니다. 훈련 데이터를 확대하고 LLM 모델 매개변수를 동일한 비율로 줄이도록 선택하여 모델 효과를 줄이지 않고 모델 크기를 크게 줄이는 목적을 달성할 수 있습니다. 모델의 크기를 줄이면 추론 속도가 훨씬 빨라지는 등 많은 이점이 있으며 의심할 여지 없이 이는 유망한 LLM 개발 경로입니다.
위는 사전 훈련 단계의 모델 크기에 대한 영향입니다. LLM이 다운스트림 특정 작업을 해결하는 능력의 관점에서 볼 때 모델 크기가 증가함에 따라 다양한 유형의 작업에 따라 성능이 달라집니다. 구체적으로 다음 세 가지가 있습니다. 유형 조건.
여기에 이미지 설명을 삽입하세요

첫 번째 유형의 작업은 LLM 모델의 스케일링 법칙을 완벽하게 구현합니다. 즉, 위 그림의 (a)와 같이 모델의 스케일이 점차 확대될수록 작업 성능이 점점 좋아진다는 의미입니다. 이러한 작업은 일반적으로 다음과 같은 공통점을 충족합니다. 즉, 지식 집약적인 작업인 경우가 많습니다. 즉, LLM 모델에 더 많은 지식이 포함되어 있으면 해당 작업의 성능이 더 좋아집니다. 그리고 많은 연구에서 LLM 모델이 클수록 학습 효율성이 높다는 것, 즉 동일한 양의 훈련 데이터, 모델이 클수록 작업 효과가 더 좋아진다는 사실이 입증되었으며, 이는 동일한 상황에 직면하더라도 이를 보여줍니다. 훈련 데이터 배치에서 더 큰 LLM 모델은 더 많은 지식을 학습할 수 있는 상대적으로 더 작은 모델입니다. 게다가 일반적으로 LLM 모델의 매개변수를 늘리면 훈련 데이터의 양도 동시에 늘어나는 경우가 많습니다. 이는 대규모 모델이 더 많은 데이터에서 더 많은 지식 포인트를 학습할 수 있음을 의미합니다. 이러한 연구는 위의 그림을 잘 설명할 수 있으며, 이러한 지식 집약적 작업이 모델의 크기가 증가함에 따라 점점 더 좋아지고 있는 이유를 설명할 수 있습니다. 대부분의 전통적인 자연어 이해 작업은 실제로 지식 집약적인 작업이며, 지난 2년 동안 많은 작업이 인간의 성능을 능가하는 등 큰 발전을 이루었습니다. 분명히 이러한 높은 확률은 특정 기술 개선으로 인한 것이 아니라 LLM 모델의 규모 증가로 인해 발생합니다.
두 번째 유형의 작업은 위의 그림 (b)에 표시된 것처럼 LLM이 특정 "긴급 능력"을 가지고 있음을 보여줍니다. 소위 "긴급 능력"은 모델 매개변수 척도가 특정 임계값에 도달하지 못할 때 기본적으로 모델이 그러한 작업을 해결할 수 있는 능력이 없다는 것을 의미하며, 이는 성능 및 답변을 무작위로 선택하는 효과에 반영됩니다. 모델 규모가 임계값 이상을 초과하면 해당 작업에 대한 LLM 모델의 효과가 갑작스러운 성능 향상을 보여줍니다. 즉, 모델 크기는 LLM의 새로운 기능을 잠금 해제하는 열쇠이며, 모델 크기가 커질수록 LLM의 새로운 기능이 점점 더 많이 잠금 해제됩니다. 이것은 사람들이 미래에 대해 낙관하게 만들 수 있다는 가능성을 의미하기 때문에 매우 기적적인 현상입니다. 아마도 LLM이 현재 잘 해결할 수 없는 과제가 많을 것입니다. 지금 이 순간 우리의 관점에서도 LLM은 전혀 문제가 없습니다. 그러나 LLM에는 "긴급 능력"이 있기 때문에 모델을 계속 추진하면 언젠가 그 능력이 갑자기 잠금 해제될 수도 있습니다. LLM 모델 규모의 성장은 우리에게 예상치 못한 놀라운 선물을 가져다 줄 것입니다.
"모방 게임을 넘어서: 언어 모델의 능력을 정량화하고 추정"이라는 기사에서는 "창발 능력"을 구현하는 작업에도 몇 가지 공통점이 있음을 지적했습니다. 이러한 작업은 일반적으로 여러 단계로 구성되며 이러한 작업을 해결하려면 종종 여러 중간 단계를 먼저 해결하는 데 필요한 반면, 논리적 추론 능력은 이러한 유형의 작업의 최종 해결에서 중요한 역할을 합니다. Chain of Thought (Chain of Thought) Prompting은 LLM의 추론 능력을 강화하는 대표적인 기술로, 이러한 업무의 효과를 크게 향상시킬 수 있다. 여기로 확장되었습니다.
문제는 왜 LLM이 이러한 "창출 능력" 현상을 보이는가 하는 것입니다. 위의 기사와 "대형 언어 모델의 새로운 능력"은 몇 가지 가능한 설명을 제공합니다.
가능한 설명 중 하나는 일부 작업의 평가 지표가 충분히 원활하지 않다는 것입니다. 예를 들어, 작업 생성을 위한 일부 판단 기준에서는 모델의 문자열 출력이 표준 답변과 정확하게 일치해야 정답으로 간주되며, 그렇지 않으면 0점이 됩니다. 따라서 모델이 증가하더라도 그 효과는 점차 좋아지고 있으며 이는 더 정확한 문자 조각의 출력에 반영되지만 완전히 정확하지는 않기 때문에 작은 오류가 있는 한 0점이 됩니다. 모델이 충분히 큰 경우에만 출력이 점수를 매기려면 모든 세그먼트가 정확해야 합니다. 즉, 지표가 충분히 매끄럽지 않기 때문에 LLM이 실제로 "창출 능력"의 외부 발현으로 보이는 작업 효과를 점차적으로 개선하고 있다는 사실을 반영할 수 없습니다.
또 다른 가능한 설명은 일부 작업이 여러 개의 중간 단계로 구성되어 있다는 것입니다. 모델의 크기가 커짐에 따라 각 단계를 해결하는 능력이 점차 향상되지만 중간 단계 하나가 잘못된 만큼 최종 답도 틀리게 됩니다. 이는 "창발적 역량"이라는 피상적인 현상으로 이어집니다.
물론 위의 설명은 아직은 추측에 불과하며 LLM에서 왜 이런 현상이 나타나는지에 대해서는 더욱 심층적인 연구가 필요하다.
여기에 이미지 설명을 삽입하세요

작업의 수도 적으며, 작업 효과 곡선은 모델 규모가 커질수록 작업 효과가 점차 저하되지만, 모델 규모가 더 커질수록 효과가 시작되는 U자형 특성을 나타냅니다. 점점 더 좋아지기 위해. , 위 그림에서 볼 수 있듯이 U자형 성장 추세를 보여주는 두 가지 과제에 대한 핑크색 PaLM 모델의 지표 추세입니다. 이러한 작업이 왜 그렇게 특별한가요? "역 스케일링은 U자 모양이 될 수 있습니다"라는 기사에 설명이 나와 있습니다. 이러한 작업은 실제로 두 가지 다른 유형의 하위 작업을 의미합니다. 하나는 실제 작업이고 다른 하나는 "간섭 작업(산만 작업)"입니다. 모델의 크기가 작을 경우 하위 작업을 식별할 수 없어 모델의 성능은 무작위 답안과 비슷하고, 모델이 중간 크기로 커지면 주로 간섭 작업을 수행하므로 부정적인 면을 갖는다. 실제 작업 효과에 대한 영향은 실제 작업의 효과가 감소하는 것으로 반영되며, 모델의 규모가 더 커지면 LLM은 간섭 작업을 무시하고 실제 작업을 수행할 수 있으며, 이는 실제 작업에 반영됩니다. 효과 증가.
모델 크기가 커질수록 효과가 감소하는 작업에 대해 CoT(Chain of Thinking) 프롬프트를 사용하면 일부 작업의 성능은 Scaling 법칙을 따르도록 변환됩니다. 즉, 모델 크기가 클수록 좋습니다. 그 효과로 인해 다른 작업은 U자형 성장 곡선으로 변환됩니다. 이것은 실제로 측면에서 보여줍니다. 이러한 유형의 작업은 추론 유형 작업에 속해야 하므로 CoT를 추가하면 작업 성능이 질적으로 변화합니다.

04. 휴먼-컴퓨터 인터페이스: 상황별 학습에서 이해 지도까지

일반적으로 우리가 자주 언급하는 사람과 LLM 간의 인터페이스 기술에는 제로 샷 프롬프트, 소수 샷 프롬프트, 상황별 학습 및 교육이 포함됩니다. 이는 실제로 특정 작업을 표현하는 설명입니다. 그러나 문헌을 살펴보면 이름이 상당히 혼란스럽다는 것을 알 수 있습니다.
그 중 Instruct는 ChatGPT의 인터페이스 방식으로, 이와 유사하게 "이 문장을 중국어에서 영어로 번역해 주세요"와 같이 작업에 대한 설명을 자연어로 제공하는 것을 의미합니다. 제로샷 프롬프팅(Zero Shot Prompting)은 사실 현재 인스트럭트(Instruct)의 초기 이름인 것으로 알고 있습니다. 예전에는 모두가 제로샷(Zero Shot)이라고 불렀지만 지금은 많은 분들이 인스트럭트로 바꾸십니다. 비록 함축적이지만 구체적인 접근 방식은 두 가지 접근 방식입니다. 초기에는 다들 제로샷 프롬프팅을 했는데, 사실 과제를 어떻게 표현해야 할지 몰라 단어나 문장을 바꿔가며 과제를 표현하려고 반복적으로 시도했는데, 이런 접근 방식이 훈련에 적합한 것으로 입증됐다. 데이터의 분포는 실제로 의미가 없습니다. 현재 Instruct의 관행은 주어진 명령으로 명령문을 표현하고 LLM이 이를 이해하도록 노력하는 것입니다. 그래서 표면은 과제의 표현이지만 생각은 다르다.
상황별 학습과 몇 가지 샷 프롬프트는 비슷한 의미를 갖습니다. 즉, LLM에 몇 가지 예제를 템플릿으로 제공한 다음 LLM이 새로운 문제를 해결하도록 한다는 것입니다. 개인적으로 In Context Learning은 특정 작업에 대한 설명으로도 이해할 수 있다고 생각하는데, Instruct는 추상적인 설명 방식이고 In Context Learning은 예를 들어 설명하는 방법입니다. 물론, 현재 이러한 이름이 다소 혼란스럽다는 점을 고려하면, 위의 이해는 단지 내 개인적인 의견일 뿐입니다.
따라서 여기서는 In Context Learning 및 Instruct만 소개하고 더 이상 제로 샷과 소수 샷에 대해서는 언급하지 않습니다.

1. 맥락 학습의 신비로움

생각해 보면 In Context Learning은 놀라운 기술입니다. 그 마법은 어디에 있습니까? 몇 가지 샘플 예제를 LLM에 제공하면 LLM이 해당 사례를 성공적으로 예측할 수 있다는 것이 놀라운 점입니다. 이 말을 들으면 여러분은 이렇게 물을 것입니다: 무엇이 그렇게 마법적인가? 미세 조정이 작동하는 방식이 아닌가요? 이 질문을 하고 싶다면 이 질문에 대해 충분히 깊이 생각하지 않았다는 의미입니다.
생각해 보면 In Context Learning은 놀라운 기술입니다. 그 마법은 어디에 있습니까? 몇 가지 샘플 예제를 LLM에 제공하면 LLM이 해당 사례를 성공적으로 예측할 수 있다는 것이 놀라운 점입니다. 이 말을 들으면 여러분은 이렇게 물을 것입니다: 무엇이 그렇게 마법적인가? 미세 조정이 작동하는 방식이 아닌가요? 이 질문을 하고 싶다면 이 질문에 대해 충분히 깊이 생각하지 않았다는 의미입니다.

여기에 이미지 설명을 삽입하세요

Fine-tuning과 In Context Learning은 둘 다 LLM에 대한 몇 가지 예를 제공하는 것처럼 보이지만 질적으로 다릅니다(위 다이어그램 참조). Fine-tuning은 이러한 예를 교육 데이터로 사용하고 역전파를 사용하여 LLM을 수정합니다. 모델이며, 모델 매개변수를 수정하는 작업은 이러한 예를 통한 LLM 학습 프로세스를 반영합니다. 그러나 In Context Learning에서는 LLM에서 살펴볼 예시를 하나만 꺼냈고, 예시를 기반으로 LLM 모델의 매개변수를 수정하기 위해 역전파를 사용하지 않고 새로운 예시를 예측하도록 요청했습니다. 모델 매개변수가 수정되지 않았다는 것은 LLM이 학습 과정을 경험하지 않았다는 것을 의미하며, 학습 과정을 경험하지 않았다면 왜 보기만 해도 새로운 사례를 예측할 수 있습니까? 이것이 바로 In Context Learning의 마법입니다. "그냥 군중 속에서 당신을 한 번 더 보았고 당신의 얼굴을 결코 잊지 않았기 때문입니다"라는 가사가 생각나나요? 그리고 이 노래는 "전설"이라고 불립니다. 전설은 전설이 아니라고 하던데요?
In Context Learning은 사례를 통해 지식을 배우는 것이 아닌 것 같은데, 사실 LLM은 이상한 방식으로 학습하는 걸까요? 아니면 정말 아무것도 배우지 못한 걸까요? 이 질문에 대한 답은 아직도 풀리지 않은 미스터리입니다. 기존의 일부 연구는 각자의 의견이 있고 다양하여 어느 것이 진실인지 판단하기 어렵고, 일부 연구 결론은 모순되기도 합니다. 현재의 몇 가지 진술은 다음과 같습니다.누가 옳고 누가 그른지에 대해서는 오직 당신만이 스스로 파악할 수 있습니다. 물론, 이 놀라운 현상 뒤에 숨은 진실을 추구하는 것도 좋은 연구주제라고 생각합니다.
상황 내 학습이 예제를 통해 학습하지 않는다는 것을 증명하려는 작업은 "시연의 역할 재고: 상황 내 학습 작업을 만드는 것은 무엇입니까?"입니다. LLM에 제공된 샘플 예시에서는 해당 정답이 맞는지 여부는 실제로 중요하지 않으며, 정답을 다른 무작위 답변으로 대체하면 In Context Learning의 효과에 영향을 미치지 않는다는 것을 발견했습니다. 이것은 최소한 한 가지 점을 보여줍니다. In Context Learning은 매핑에서 매핑 기능에 대한 정보를 LLM에 제공하지 않습니다. 그렇지 않으면 올바른 레이블을 무작위로 변경하면 매핑 기능이 확실히 방해됩니다. 즉, In Context Learning은 입력 공간에서 출력 공간으로의 매핑 과정을 학습하지 않습니다.

In Context Learning에 실제로 영향을 미치는 것은 x와 y의 분포, 즉 입력 텍스트 x와 후보 답변 y의 분포입니다. 예를 들어 이 두 분포를 변경하는 경우 y를 후보 답변이 아닌 다른 것으로 대체합니다. , In Context Learning의 효과가 급격히 떨어집니다.
요컨대, 이 작업은 In Context Learning이 매핑 기능을 학습하지 않지만 입력과 출력의 분포가 매우 중요하며 이 두 가지는 임의로 변경할 수 없음을 증명합니다.
일부 연구에서는 LLM이 여전히 주어진 예제에서 매핑 함수 y=f(x)를 학습한다고 생각하지만 이는 암시적 학습입니다. 예를 들어 "상황 내 학습이란 무엇입니까? 선형 모델을 사용한 조사"에서는 Transformer가 예제를 통해 x에서 y로의 매핑 프로세스를 암묵적으로 학습할 수 있다고 믿습니다. 활성화 함수에는 몇 가지 간단한 매핑 함수가 포함되어 있으며 LLM은 예제를 사용하여 Excite할 수 있습니다. 해당하는 것. "GPT가 컨텍스트 내에서 학습할 수 있는 이유는 무엇입니까? 언어 모델이 메타 최적화자로 경사하강법을 비밀리에 수행하는 이유" 기사에서는 ICL을 암시적 미세 조정으로 간주합니다.
전체적으로 이것은 아직도 풀리지 않은 미스터리이다.

마법지시 이해

Instruct는 인간이 이해하기에 편리한 작업 설명이라고 볼 수 있으며, 이러한 전제 하에서 Instruct에 대한 현재의 연구는 학문적 연구에 부분적인 Instruct와 인간의 실제 요구를 설명하는 Instruct의 두 가지 유형으로 나눌 수 있습니다.
여기에 이미지 설명을 삽입하세요

첫 번째 유형인 학문적 연구 중심으로 지도하는 유형을 살펴보겠습니다. 핵심 연구 주제는 다중 작업 시나리오에서 교육을 이해하는 LLM 모델의 일반화 능력입니다. 위 그림의 FLAN 모델에서 볼 수 있듯이 NLP 작업이 많다는 것을 의미하며, 각 작업에 대해 연구자는 작업의 지시로 하나 이상의 Prompt 템플릿을 구성한 후 학습 예제를 통해 LLM 모델을 미세 조정합니다. LLM이 동시에 여러 작업을 배울 수 있도록 합니다. 모델이 훈련된 후 LLM 모델에 이전에 본 적이 없는 새로운 작업에 대한 지시를 제공한 다음 LLM이 제로샷 작업을 해결하도록 하고 LLM 모델이 지시를 이해할 수 있는 일반화 능력이 있는지 여부를 판단합니다. 과제는 충분히 해결됐다.
현재 연구 결론을 요약하면("Scaling Instruction-Fine-tuned Language Models"/"Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks" 참조) LLM 모델의 일반화 능력을 효과적으로 높일 수 있는 요소는 다음과 같습니다. 지시 내용 : 다중 작업 수를 늘리고, LLM 모델의 크기를 늘리고, CoT Prompting을 제공하고, 작업의 다양성을 늘립니다. 어느 쪽이든 취하면 LLM 모델의 교육 이해력을 높일 수 있습니다.
두 번째는 인간의 실제 요구에 따른 교육입니다. 이러한 유형의 연구는 InstructGPT와 ChatGPT로 대표됩니다. 이러한 유형의 작업도 멀티태스킹을 기반으로 하지만 학문적 연구 중심 작업과 가장 큰 차이점은 인간 사용자의 실제 요구를 지향한다는 것입니다. 왜 그런 말을 해? LLM 다중 작업 교육에 사용하는 작업 설명 프롬프트는 연구 작업의 범위를 고정한 다음 연구자가 작업 설명 프롬프트를 작성하도록 하는 대신 다수의 사용자가 제출한 실제 요청에서 샘플링되기 때문입니다. 여기에서 소위 "실제 요구 사항"은 두 가지 측면에 반영됩니다. 첫째, 사용자가 제출한 작업 설명에서 무작위로 선택되기 때문에 다루는 작업 유형이 더 다양하고 사용자의 실제 요구 사항에 더 부합합니다. , 특정 작업에 대한 프롬프트 설명은 사용자가 제출하며, 이는 사용자가 말할 것이라고 생각하는 것이 아니라 작업 요구 사항을 표현할 때 일반 사용자가 말하는 내용을 반영합니다. 분명히 이러한 유형의 작업으로 수정된 LLM 모델은 더 나은 사용자 경험을 제공할 것입니다.
InstructGPT 논문에서는 이 방법을 FLAN의 Instruct 기반 방법과도 비교했습니다. 먼저 GPT3에서 FLAN이 언급하는 작업, 데이터, 프롬프트 템플릿을 미세 조정하여 GPT 3에서 FLAN 방식을 재현한 다음 InstructGPT와 비교합니다. InstructGPT의 기본 모델도 GPT3이므로 차이점만 있을 뿐입니다. 데이터와 방법을 비교하면 FLAN 방법의 효과가 InstructGPT와는 거리가 멀다는 것이 밝혀졌습니다. 그렇다면 그 이유는 무엇입니까? 데이터를 분석한 결과, 논문은 FLAN 방법이 InstructGPT와 관련된 필드의 하위 집합인 작업 필드를 상대적으로 적게 포함하므로 효과가 좋지 않다고 생각합니다. 즉, FLAN 논문에 포함된 작업이 사용자의 실제 요구와 일치하지 않으며, 이로 인해 실제 시나리오에서는 효과가 미흡하게 됩니다. 그리고 우리가 깨달은 점은 사용자 데이터에서 실제 요구 사항을 수집하는 것이 매우 중요하다는 것입니다.

상황별 학습과 교육 간의 연결

In Context Learning이 작업 명령을 구체적으로 표현하기 위해 몇 가지 예를 사용한다고 가정하면 Instruct는 인간의 습관에 더 부합하는 추상적인 작업 설명입니다. 그렇다면 자연스러운 질문은 다음과 같습니다. 둘 사이에 어떤 연관성이 있습니까? 예를 들어, LLM에 특정 작업을 완료하는 몇 가지 구체적인 예를 제공하고 LLM이 자연어로 설명된 해당 Instruct 명령을 찾도록 할 수 있습니까?
여기에 이미지 설명을 삽입하세요

현재 이 문제를 탐구하는 산발적인 연구가 있으며, 나는 이 방향이 큰 연구 가치가 있다고 생각합니다. 먼저 대답에 대해 이야기하겠습니다. 대답은 다음과 같습니다. 예, LLM이 가능합니다. "Large Language Models Are Human-level Prompt Engineers"는 이 방향에서 매우 흥미로운 작업입니다. 위 그림에 표시된 것처럼 특정 작업에 대해 LLM에 몇 가지 예를 제공하고 LLM이 이 작업을 설명할 수 있는 자연어 명령을 자동으로 생성하도록 합니다. 그런 다음 LLM에서 생성된 작업 설명을 사용하여 작업 효과를 테스트합니다. 사용하는 기본 모델은 GPT 3과 InstructGPT이며, 이 기술의 축복을 받은 후 LLM에서 생성된 Instruct의 효과는 이 기술을 사용하지 않는 GPT 3 및 InstructGPT에 비해 크게 향상되었으며 일부 작업에서는 인간의 성능을 능가합니다.
이는 구체적인 작업 예제와 작업의 자연어 설명 사이에 신비한 내부 연결이 있음을 보여줍니다. 이 연결은 정확히 무엇입니까? 우리는 아직 그것에 대해 아무것도 모릅니다.

05. 지혜의 빛: LLM의 추론 능력을 높이는 방법

현재 많은 연구에서 LLM이 지식에 대한 강한 기억력을 가지고 있음이 입증되었습니다. 그러나 일반적으로 우리는 강한 기억력 때문에 사람이 똑똑하다고 말할 수 없습니다. 강한 추론 능력이 있는지 여부는 종종 우리의 판단에 따라 결정됩니다. 사람이 똑똑한지 아닌지 중요한 기준입니다. 마찬가지로 LLM의 효과가 놀라우려면 강력한 추론 능력이 필요합니다. 추론 능력은 본질적으로 새로운 지식이나 새로운 결론을 도출하기 위해 많은 관련 지식 포인트를 포괄적으로 사용하는 것입니다. LLM의 추론 능력은 지난 해 LLM에서 가장 중요하고 인기 있는 연구 분야 중 하나입니다. 따라서 우리가 관심을 갖는 질문은 LLM에 추론 능력이 있습니까? 그렇다면 그 추론능력은 충분히 강한가?
이 두 가지 질문에 대한 현재 대답은 다음과 같습니다: 모델 규모가 충분히 크면 LLM 자체에 추론 능력이 있습니다. 간단한 추론 문제에 대해서는 LLM이 매우 좋은 기능을 달성했지만 복잡한 추론 문제에 대해서는 여전히 그럴 필요가 있습니다. 해결되었습니다. 더 심층적인 연구를 진행해 보세요.
LLM 추론과 관련된 기존 작업을 정리하면 LLM 추론 기능을 마이닝하거나 촉진하기 위한 다양한 기술적 아이디어를 반영하는 두 가지 범주로 분류하겠습니다. 첫 번째 범주에는 더 많은 연구가 포함되어 있으며 총괄적으로 프롬프트 기반이라고 할 수 있습니다. 핵심 아이디어는 적절한 프롬프트나 프롬프트 샘플을 통해 LLM 자체의 추론 능력을 더 잘 자극할 수 있다는 것입니다. Google은 이 방향으로 많은 효과적인 작업을 수행했습니다. 두 번째 유형의 접근 방식은 사전 학습 과정에서 프로그램 코드를 도입하고 텍스트와 함께 사전 학습에 참여함으로써 LLM의 추론 능력을 더욱 향상시키는 것인데, 이것이 OpenAI에서 실행되는 아이디어입니다. 예를 들어 ChatGPT는 강력한 추론 능력이 있어야 하지만 사용자에게 몇 가지 추론 예시를 제공할 것을 요구하지 않으므로 ChatGPT의 강력한 추론 능력은 코드를 사용하여 GPT 3.5의 사전 학습에 참여하는 데서 나올 가능성이 높습니다.
이 두 가지 아이디어는 사실 일반적인 방향에서 매우 다릅니다: 코드를 사용하여 LLM의 추론 능력을 향상시키는 것은 훈련 데이터의 다양성을 높여 LLM의 추론 능력을 직접적으로 향상시키려는 아이디어를 반영하며, Prompt 방식을 기반으로, LLM 자체의 추론 능력을 장려하는 것은 문제 해결 과정에서 LLM이 이 능력을 더 잘 보여줄 수 있도록 하는 기술적 방법일 뿐입니다. 전자(코드 방식)는 근본 원인을 치료하고, 후자는 증상을 치료한다고 볼 수 있다. 물론 이 둘은 실제로는 상호보완적이지만 장기적으로는 근본 원인이 더 중요합니다.

1. 프롬프트 기반 방법

이 분야에는 많은 작업이 있는데, 요약하면 크게 세 가지 기술 경로로 나눌 수 있습니다.
여기에 이미지 설명을 삽입하세요

첫 번째 아이디어는 질문에 보조 추론 프롬프트를 직접 추가하는 것입니다. 이 방법은 간단하고 간단하지만 많은 분야에서 잘 작동합니다. 이 접근 방식은 "대형 언어 모델은 제로 샷 추론자"(제로 샷 CoT라고도 함)에 의해 제안되었습니다. 구체적으로는 2단계로 나누어진다(위 그림 참조). 1단계에서는 질문에 "단계별로 생각해보자"라는 프롬프트가 추가되고, LLM은 구체적인 추론 과정을 출력한다. 단계에서는 첫 번째 단계의 질문 이후에 LLM이 출력한 구체적인 추론 과정을 이어붙이고 Prompt="그러므로 답(아라비아 숫자)은 다음과 같습니다."를 추가하면 이때 LLM이 답을 줍니다. 이러한 간단한 조작으로 다양한 추론 작업에서 LLM의 효과를 크게 높일 수 있습니다. 예를 들어 수학적 추론 테스트 세트 GSM8K에 프롬프트를 추가한 후 추론 정확도가 원래 10.4%에서 40.4%로 직접적으로 증가했는데, 이는 놀라운 일입니다. .
LLM에는 왜 "단계적으로 생각해 봅시다" 프롬프트를 제공하여 자세한 추론 단계를 나열하고 답을 계산하는 기능이 있습니까? 그 이유는 아직 확실하지 않습니다. 제 추측으로는 "단계적으로 생각해보자"로 시작하여 상세한 추론 단계를 거쳐 최종적으로 답변 LLM은 사전 훈련 중에 이러한 패턴을 기억합니다. 그리고 우리가 이 프롬프트를 입력하면 LLM이 일부 예제의 파생 단계를 모호하게 "기억"하도록 자극하여 이러한 예제를 모방하여 단계별 추론을 수행하고 답변을 제공할 수 있습니다. 물론 이는 근거 없는 추론일 뿐이며, 그렇다면 나중에 소개되는 표준 CoT 접근 방식을 읽어보면 Zero-shot CoT가 표준 CoT를 수동으로 작성한다는 점만 제외하면 기본적으로 표준 CoT와 동일하다는 것을 알 수 있습니다. 단계 예제와 제로샷 CoT는 프롬프트를 통한 추론 단계가 포함된 일부 예제를 메모리에서 활성화할 확률이 높으며 이는 매우 다를 수 있습니다. 표준 CoT 효과가 Zero-Shot CoT 효과보다 낫다는 것은 완전히 이해할 수 있습니다. 왜냐하면 결국 LLM에 의존하여 예시를 회상하면 정확도가 너무 높게 추정되지 않고 인위적으로 주어진 예시의 정확도가 보장되기 때문입니다. 따라서 자연적인 표준 CoT 효과가 더 좋아질 것입니다.
이 측면은 LLM 자체가 추론 능력을 가지고 있지만 이를 자극할 수 있는 방법이 없다는 사실을 보여줍니다. 적절한 프롬프트를 통한 2단계 프롬프트는 이 잠재력을 어느 정도 풀어줄 수 있습니다. 또한, 중국어의 경우 "문제의 자세한 해결 방법은 다음과 같습니다"라는 또 다른 황금 프롬프트가 있을 수 있는데, 이는 중국어 말뭉치에서 소개문을 자주 사용하고 "설명할 때 단계별로 생각해보자"는 의미이기 때문입니다. 추론 단계." 달라야 한다. 이것은 명백한 서구의 진술이고, 실제로 이 중국의 황금 프롬프트를 탐구할 필요가 있다.
두 번째 아이디어는 일반적으로 예제 기반 사고 체인(few-shot CoT, Chain of Thought) 프롬프트라고 합니다. 이 방향이 현재 LLM 추론 연구의 주된 방향이며, 이 아이디어를 바탕으로 많은 연구가 이루어지고 있는데, 기본적으로 CoT의 기술 발전 방향을 대표할 수 있는 눈에 띄는 효과를 가져온 대표적인 작품 몇 가지를 간략하게 소개한다.
여기에 이미지 설명을 삽입하세요

CoT의 주요 아이디어는 실제로 매우 간단합니다. LLM 모델에 추론 학습을 가르치기 위해 인위적으로 작성된 추론 예제가 제공됩니다. 프로세스는 사고 체인 프롬프트입니다. 구체적인 예는 파란색 텍스트를 참조하세요. 위 그림에서. CoT는 LLM 모델이 진실을 이해하도록 하는 것을 의미합니다. 즉, 추론 과정에서 너무 많은 단계를 거치지 마십시오. 그렇지 않으면 실수하기 쉽고, 사고 방식을 바꾸고, 큰 문제를 작은 문제로 바꾸고, 모든 단계를 수행합니다. 작은 승리를 모아 큰 승리를 만들어 보세요. CoT의 개념을 명확하게 제시한 최초의 논문은 "Chain of Thinking Prompting Elicits Reasoning in Large Language Model"로 2022년 1월에 논문이 출판되었습니다. 방법은 매우 간단하지만 LLM 모델의 추론 능력은 크게 향상되었습니다. CoT 적용 후 GSM8K 수학적 추론 테스트 세트의 정확도가 약 60.1%로 향상되었습니다. 물론, 상세한 추론 단계와 중간 프로세스를 제공하는 이러한 아이디어는 CoT에서 처음 제안된 것이 아닙니다. 초기 "스크래치패드" 기술(참조: 작업 표시: 언어 모델을 사용한 중간 계산을 위한 스크래치패드)에서 처음으로 유사한 열차를 채택했습니다. 생각.
여기에 이미지 설명을 삽입하세요

CoT가 제안된 지 얼마 되지 않은 3월 22일, "Self-Consistency"라는 개선된 기술이 GSM8K 테스트 세트의 정확도를 74.4%로 높였습니다. 이러한 개선을 제안한 논문은 "Self-Consistency Improves Chain of Thought Reasoning in Language"입니다. 모델". "자기 일관성"에 대한 아이디어도 매우 직관적입니다(위 그림 참조). 먼저 CoT를 사용하여 추론 과정의 몇 가지 예를 제시한 다음 LLM에게 주어진 문제에 대해 추론하도록 요청할 수 있습니다. CoT이며 추론 프로세스를 직접 출력하고 답변하면 전체 프로세스가 종료됩니다. "Self-Consistency"는 그렇지 않습니다. LLM이 여러 가지 추론 과정과 답변을 출력한 다음 투표를 사용하여 가장 좋은 답변을 선택하는 것이 필요합니다. 아이디어는 매우 간단하고 직접적이지만 효과는 정말 좋습니다. "Self-Consistency"는 실제로 LLM에게 다음과 같은 진리를 배우도록 가르칩니다. Kong Yiji는 회향 콩에 "fen"이라는 단어를 쓰는 데 네 가지 방법이 있다고 말했습니다. 마찬가지로 수학 문제에 대한 올바른 해결책이 많이 있을 수 있으며 각각 다른 방법이 있습니다. 파생 과정은 모두 최종 답변으로 이어집니다. 모든 길은 로마로 통한다 길을 잃고 북경으로 가는 사람도 있지만 결국 길을 잃는 사람은 소수에 불과하다 대부분의 사람들이 어디로 가는지, 정답은 어디인지 보라. 단순한 방법에는 심오한 철학적 의미가 담겨 있는 경우가 많습니다. 그렇지 않나요?
이후 "자기 일관성"을 바탕으로 "언어 모델을 더 나은 추론자로 만드는 발전에 관한"작업은 "하나의 프롬프트 질문에서 다중 프롬프트 질문으로 확장하고 추론의 중간 단계의 정확성을 확인하고 다중 프롬프트 질문으로 확장"하는 작업을 더욱 통합했습니다. 출력 답변 가중 투표" 이 세 가지 개선 사항은 GSM8K 테스트 세트의 정확도를 약 83%로 높였습니다.
여기에 이미지 설명을 삽입하세요

세 번째 아이디어는 분할 정복 알고리즘의 아이디어를 구현합니다. 물론 이 소위 '분할정복'은 내가 요약한 것이고 다른 사람들은 그렇게 말하지 않았다. 이 아이디어의 핵심 아이디어는 복잡한 추론 문제의 경우 해결하기 쉬운 여러 하위 문제로 분해하고 하위 문제를 하나씩 해결한 후 다음에서 복잡한 문제에 대한 답을 도출한다는 것입니다. 하위 문제에 대한 답변입니다. 이것이 실제로 분할 정복 알고리즘의 아이디어와 더 유사하다는 것을 알 수 있습니다. 저는 개인적으로 이러한 사고가 문제의 본질을 드러내고 LLM의 복잡한 추론 문제를 궁극적으로 해결하는 진정한 방법이 될 수 있다고 생각합니다. 위 그림에 표시된 것처럼 이 아이디어의 구체적인 구현을 설명하기 위해 "최소에서 최대 프롬프트" 기술을 예로 들었습니다. 이는 두 단계로 나누어져 있으며, 첫 번째 단계는 원래 문제에서 다음과 같이 알 수 있습니다. 최종 물어볼 질문은 무엇입니까? 최종 질문이 최종 Q라고 가정하고 원래 질문에서 프롬프트 템플릿을 채웁니다. "최종 Q 문제를 해결하려면 먼저 해결해야 합니다." 그런 다음 원래 질문과 이 프롬프트를 LLM에 제공합니다. LLM 모델에서 제공한 답변은 LLM이 최종 질문의 하위 질문 Sub Q를 제공하도록 하는 것과 동일합니다. 그런 다음 두 번째 단계로 들어가고 LLM이 먼저 하위 질문에 답변하도록 합니다. -방금 얻은 질문 Sub Q를 얻고 해당 답변을 얻은 다음 원래 질문에 하위 질문 Sub Q와 해당 답변을 접합한 다음 LLM이 마지막 질문 Final Q를 질문하고 LLM이 현재로서는 최종 답변입니다. 이런 식으로 하위 문제를 해체하고, 하위 문제에 대한 답에서 점차 최종 답을 찾아낸다는 생각을 반영한 것이다.

2. 코드 사전 훈련으로 LLM 추론 능력 향상

위는 LLM 모델의 추론 능력을 자극하기 위해 Prompt를 사용하는 세 가지 주요 방법입니다. LLM의 추론 능력과 관련하여 흥미롭고 수수께끼 같은 현상이 관찰되었습니다. 모델 사전 훈련을 통해 LLM 모델의 추론 능력을 크게 향상시킬 수 있습니다. 이 결론은 많은 논문의 실험 부분에서 도출될 수 있습니다(대규모 언어 모델에서 자동 사고 유도/대규모 벤치 작업에 도전하고 사고 사슬이 이를 해결할 수 있는지 여부 및 다른 논문의 실험 부분 참조).
여기에 이미지 설명을 삽입하세요

위 그림은 "On the Advance of Making Language Models Better Reasoners" 논문의 실험 데이터를 보여줍니다. 여기서 GPT3 davinci는 일반 텍스트 훈련을 기반으로 한 표준 GPT 3 모델입니다. code-davinci-002(OpenAI Codex에서 내부적으로 호출함) )는 코드와 NLP 데이터 모두에 대해 훈련된 모델입니다. 둘의 효과를 비교해 보면, 어떤 추론 방법을 사용하든 일반 텍스트 사전 학습 모델에서 텍스트와 코드 혼합 사전 학습 모델로 전환하기만 하면 모델 추론 능력이 향상되었음을 알 수 있습니다. 거의 모든 테스트 데이터 세트에서 개선되었습니다. 엄청난 효과 개선. 예를 들어 "Self Consistency" 방법을 예로 들겠습니다. 대부분의 데이터 세트에서 성능 개선은 20~50% 포인트를 직접적으로 초과합니다. 이것은 무서운 성능 개선이지만, 실제로 특정 추론 모델 수준에서는 아무 작업도 수행하지 않았으며 사전 학습 중에 텍스트 외에 프로그램 코드만 추가했습니다.
이러한 현상 외에도 위 그림의 데이터에서 다른 결론도 도출할 수 있습니다.예를 들어 GPT 3의 일반 텍스트 사전 학습 모델은 수학적 비교를 제외하면 실제로 상당한 수준의 추론 능력을 가지고 있습니다. GSM8K의 추론. 또한 다른 추론 데이터 세트의 성능도 좋습니다. 단, 해당 능력을 자극하기 위해 적절한 방법을 사용해야 합니다. 또 다른 예는 text-davinci-002, 즉 코드에서 davinci-002 Instruct Fine-tuning(InstructGPT 또는 ChatGPT 모델을 추가하는 첫 번째 단계)을 추가한 후의 모델을 기반으로 하면 추론 능력은 Codex보다 약하지만 자연어 처리 작업에서는 Codex보다 강한 것으로 다른 연구에서 나타났습니다. . 그리고 이는 Instruct Fine-Tuning을 추가하면 LLM 모델의 추론 능력이 손상되지만 자연어 이해 능력은 어느 정도 향상된다는 것을 보여주는 것으로 보입니다. 이러한 결론은 실제로 매우 흥미롭고 앞으로 더 많은 사고와 탐구에 영감을 줄 수 있습니다.
따라서 자연스러운 질문은 다음과 같습니다. 사전 훈련된 모델이 코드 사전 훈련을 통해 추가 추론 능력을 얻을 수 있는 이유는 무엇입니까? 정확한 이유는 현재 알려지지 않았으며 추가 조사가 필요합니다. 아마도 Codex 원본 버전의 코드 트레이닝(코드 트레이닝만 사용, 참조: 코드에서 트레이닝된 대규모 언어 모델 평가)이 텍스트에서 코드를 생성하는 것이고, 코드에 텍스트 주석이 많이 포함되어 있는 경우가 많기 때문인 것 같습니다. 이는 본질적으로 사전 학습된 모델이 두 가지 유형의 데이터 <텍스트, 코드>에 대한 다중 모드 정렬을 수행한 것과 유사합니다. 데이터에는 수학적 또는 논리적 문제에 대한 코드, 설명 및 설명이 상당 부분 포함되어야 하며, 이러한 수학적 또는 논리적 추론 데이터는 분명히 후속 수학적 추론 문제를 해결하는 데 도움이 됩니다.그 이유는 확률이 높기 때문이 아닐까 싶습니다.

3. LLM 추론능력에 대한 생각

이상은 LLM 추론의 주류 기술 사상과 기존의 결론을 소개하고, 다음으로 LLM 모델 추론 기술에 대한 나의 생각을 이야기하겠다.다음 내용은 순전히 개인적인 추론이므로 증거가 많지 않으니 주의 깊게 참고하시기 바랍니다. 내 판단은: 지난 1년 동안 LLM의 추론 능력을 자극하는 기술이 비약적으로 발전하고 큰 기술적 진보가 이루어졌지만 전반적으로 우리가 올바른 방향으로 걷고 있다고 생각하지만 갈 길이 멀다. 문제의 본질을 접하려면 아직 갈 길이 멀고, 좀 더 깊이 생각하고 탐구해야 합니다.
우선 위에서 언급한 분할 정복 알고리즘의 주요 아이디어에 동의합니다. 복잡한 추론 문제의 경우 여러 개의 간단한 하위 문제로 분해해야 합니다. 하위 문제에 대한 정답 확률이 높기 때문입니다. LLM의 경우 훨씬 높으며, 하위 질문에 답한 후 점차 최종 답이 도출됩니다. "최소-최대 프롬프트" 기술에서 영감을 받아 좀 더 생각해 보면 LLM 추론은 본질적으로 다음 두 가지 가능성 중 하나일 가능성이 높다고 생각합니다. LLM과 지속적으로 상호 작용하는 그래프에 대한 추론 문제 또는 LLM과 상호 작용하기 위한 프로그램 흐름도 실행 문제입니다.
여기에 이미지 설명을 삽입하세요

먼저 그래프의 추론 문제에 대해 이야기해 보겠습니다. 위 그림에 표시된 것처럼 복잡한 문제를 하위 문제 또는 하위 단계로 구성된 그래프 구조로 분해할 수 있는 방법이 있다고 가정합니다. 그래프의 노드는 하위 하위 질문 간의 종속성은 하위 질문 A에 대한 답변이 잘 되어야만 하위 질문 B에 대한 답변이 가능하다는 것을 의미하며, 순환 구조가 있을 확률이 높다 그림에서는 특정 하위 단계를 반복합니다. 위의 하위 질문 분해 다이어그램을 얻을 수 있다고 가정하면 종속 관계에 따라 LLM을 그래프 구조에 따라 단계별로 안내하고 최종 답변이 도출될 때까지 먼저 답변해야 하는 하위 질문에 답변할 수 있습니다. .
여기에 이미지 설명을 삽입하세요

프로그램의 흐름도에 대해 이야기해 보겠습니다. 위의 그림을 참조하여 복잡한 문제를 하위 문제 또는 하위 단계로 분해하고 하위 문제로 구성된 프로그램의 흐름도와 유사한 구조를 생성하는 방법이 있다고 가정합니다. -단계 이 구조에서는 일부 단계가 여러 번 반복적으로 실행됩니다.(루프 구조), 일부 단계의 실행에는 조건부 판단(조건 분기)이 필요합니다. 전체적으로는 각 하위 단계를 실행할 때 LLM과 상호 작용하여 하위 단계의 답을 얻은 후 최종 답이 출력될 때까지 프로세스에 따라 계속 실행합니다. 이 패턴과 비슷합니다. 이 아이디어가 대략적으로 정확하다고 가정하면 코드를 추가하면 사전 학습 모델의 추론 능력이 향상되는 이유를 이러한 관점에서 설명할 수 있습니다. code>는 다음과 같은 방법을 통해 모델에 전달됩니다. 암시적 프로그램 흐름도는 두 모드 사이를 연결하는 브리지 역할을 합니다. 즉, 텍스트 설명에서 암시적 흐름도까지 두 모드를 연결한 다음 생성된 특정 코드에 매핑됩니다. 흐름도를 통해 즉, 이러한 다중 모드 사전 훈련은 LLM 모델이 텍스트로부터 암시적 흐름도를 구성하고 흐름도에 따라 실행하는 능력, 즉 추론 능력을 강화할 수 있습니다.
물론 위 아이디어의 가장 큰 문제는 LLM 모델이나 본문에 설명된 문제를 기반으로 다른 모델을 기반으로 그래프 구조나 흐름도 구조를 어떻게 얻을 수 있는가 하는 것입니다. 이것이 어려움일 수 있습니다. 가능한 아이디어 중 하나는 텍스트와 고품질 코드 사전 학습을 계속 강화하고 내부 숨겨진 구조를 암시적으로 학습하는 방법을 취하는 것과 유사합니다. 그리고 현재의 CoT 기술은 위의 개념으로 생각해보면 다음과 같이 이해할 수 있습니다: 표준 CoT는 실제로 자연어 텍스트를 사용하여 그래프 구조나 프로그램 흐름도를 설명하는 반면, "최소에서 최대 프롬프트" 기술은 , 그러면 마지막 그래프 노드를 기반으로 그래프 구조를 추론하려고 하는데, 현재 방법은 역유도의 깊이에 제한이 있다는 점, 즉 매우 단순한 그래프 구조만 추론할 수 있다는 점은 명백하다. 그 능력을 제한합니다.

06. 미래로 가는 길: LLM 연구 동향과 연구할 만한 핵심 방향

개인적으로 더 중요하다고 생각하는 LLM 연구 분야나 심층 탐구할 가치가 있는 연구 방향은 다음과 같습니다.

1. LLM 모델의 규모 한도 탐색

LLM 모델의 규모를 지속적으로 늘리는 것은 기술적인 내용이 없어 보이지만 실제로는 매우 중요합니다. 나는 개인적으로 Bert, GPT 3, 그리고 ChatGPT의 출현 이후 이러한 인상적인 핵심 기술 혁신의 핵심 기여가 특정 모델이 아닌 LLM 모델의 크기 증가에서 비롯될 가능성이 높다고 판단합니다. 기술. 아마도 AGI를 잠금 해제하는 실제 열쇠는 초대형 규모의 충분히 다양한 데이터, 초대형 모델, 충분한 훈련 프로세스일 것입니다. 또한, 초대형 LLM 모델을 만들기 위해서는 기술팀의 매우 높은 엔지니어링 구현 역량이 요구되며, 이는 기술적인 내용이 부족하다고 볼 수 없습니다.
그렇다면 LLM 모델의 규모를 지속적으로 확대하는 연구의 의의는 무엇입니까? 가치에는 두 가지 측면이 있다고 생각합니다. 우선, 위에서 언급했듯이 지식 집약적 작업의 경우 모델의 크기가 커짐에 따라 다양한 작업의 효과가 점점 더 좋아질 것이며 추론 유형의 많은 어려운 작업과 CoT 프롬프트 마지막으로, 그 효과는 또한 스케일링 법칙을 따르는 경향을 보여줍니다. 그렇다면 자연스러운 질문은 다음과 같습니다. 이러한 작업에 대해 LLM의 규모 효과가 이러한 작업을 어느 정도까지 해결할 수 있습니까? 저를 포함해 많은 분들이 궁금해하는 질문입니다. 둘째, LLM의 마법 같은 "창출 능력"을 고려할 때, 모델의 크기를 계속해서 늘리면 어떤 새로운 기능이 잠금 해제되어 우리를 놀라게 할까요? 이것은 또한 흥미로운 질문입니다. 위의 두 가지 사항을 고려하여 다양한 작업을 해결하기 위한 모델 크기의 상한선이 어디인지 확인하려면 모델 크기를 지속적으로 늘려야 합니다.
물론 이런 일은 99.99%의 수련자에게 이렇게 할 수 있는 기회와 능력이 없다고밖에 말할 수 없다. 그러기 위해서는 연구기관의 재원과 투자의지, 엔지니어링 역량, 기술적 열정에 대한 요구사항이 매우 높아 필수불가결합니다. 대략적인 추산에 따르면, 이를 수행할 수 있는 기관은 외국에 5개 이하이고, 중국에서는 3개 이하입니다. 물론, 비용 문제를 고려하면, 향후 '출자형 대규모 모델'이 있을 수도 있는데, 이는 여러 역량을 갖춘 기관들이 협력하고 협력해 초대형 모델을 구축하는 현상이다.

2. LLM의 복합추론 능력 강화

앞서 LLM의 추론 능력에 대해 설명한 바와 같이 지난 해 LLM의 추론 능력이 크게 향상되었지만 많은 연구(참조: 산술 및 기호 귀납/대형 언어 모델의 언어 모델의 한계는 여전히 계획할 수 없음)를 보여줍니다. LLM이 상대적으로 잘 해결할 수 있는 추론 문제는 상대적으로 간단한 경우가 많으며 LLM의 복잡한 추론 능력은 여전히 ​​약합니다.예를 들어 간단한 문자 복사 추론이나 덧셈, 뺄셈, 곱셈 및 나눗셈 연산도 문자열이나 숫자가 매우 LLM이 길면 추론 능력이 급격히 떨어지며, 행동 ​​계획 능력 등 복합 추론 능력도 매우 약해집니다. 결국, LLM의 복잡한 추론 능력을 강화하는 것은 LLM의 향후 연구에서 가장 중요한 연결고리 중 하나가 되어야 합니다.
위에서 언급한 것처럼 코드를 추가하고 pre-training하는 것은 LLM의 추론 능력을 직접적으로 향상시키는 방향이다. 이 방향에 대한 현재의 연구는 아직 미흡한데, LLM의 추론 능력을 높이기 위해 실무 경험을 요약하고 그 뒤에 숨어 있는 원리를 탐구한 다음 코드 이외의 새로운 데이터 유형을 더 많이 도입하는 것에 가깝습니다. 이것이 방향이 될 수 있습니다. 보다 본질적인 방법으로 추론 능력을 향상시킵니다. .

3. LLM은 NLP 외에 더 많은 연구 분야를 통합합니다.

현재 ChatGPT는 NLP 및 코드 작업에 능숙하며 AGI를 이끄는 중요한 시드 플레이어로서 이미지, 비디오, 오디오 및 기타 이미지와 다중 양식을 LLM에 통합하고 심지어 과학용 AI, 로봇 제어 등을 점진적으로 통합합니다. LLM의 다른 분야는 LLM이 AGI로 이어지는 유일한 방법입니다. 그리고 이 방향은 이제 막 시작되었기 때문에 연구 가치가 높다.

4. 인간과 LLM 간의 사용하기 쉬운 대화형 인터페이스

앞서 언급했듯이 ChatGPT의 가장 큰 기술적 기여는 여기에 있습니다. 하지만 현재의 기술이 완벽하지 않다는 것은 분명하고, LLM이 이해할 수 없는 명령도 많을 것입니다. 따라서 이 방향에 따라 인간이 자신의 관례적인 명령 표현을 사용할 수 있도록 하는 더 나은 기술을 찾는 것은 LLM이 이해할 수 있는 새롭고 매우 유망한 기술 방향입니다.

5. 어려운 종합적인 작업 평가 데이터 세트 구축

좋은 평가 데이터 세트는 기술의 지속적인 발전을 이끄는 초석입니다. LLM 모델이 점진적으로 증가함에 따라 작업 효과가 빠르게 향상되어 많은 표준 테스트 세트가 빠르게 구식이 됩니다. 즉, 이러한 데이터 세트는 기존 기술에 비해 너무 쉬우며, 테스트 세트를 어렵지 않게 사용하면 현재 기술의 결함과 사각지대가 어디에 있는지 알 수 없습니다. 따라서 난이도가 높은 테스트 세트를 구축하는 것이 LLM 기술의 발전을 촉진하는 열쇠입니다.
현재 일부 새로운 테스트 세트가 업계에 등장할 예정이며 대표적인 것으로는 BIGBench, OPT-IML 등이 있습니다. 이러한 테스트 세트에는 기존 LLM 기술에 비해 어느 정도의 난이도, 다양한 유형의 작업 조합 등 일부 특성이 반영되어 있습니다.
ChatGPT에서 영감을 받아 실제 사용자 요구를 반영하는 또 다른 고려 사항이 고려되어야 한다고 생각합니다. 즉, 이러한 작업의 표현은 실제로 사용자에 의해 시작되며 이러한 방식으로 구성된 LLM 모델은 사용자의 실제 요구를 충족할 수 있습니다.
또한, LLM은 NLP 이외의 분야로 그 역량이 빠르게 넘칠 것이라고 생각하며, 다른 분야의 더 많은 평가 데이터를 통합하는 방법도 사전에 고려되어야 할 것입니다.

6. 고품질 데이터 엔지니어링

사전 학습 모델의 경우 데이터가 기반이 되며, 사전 학습 과정은 데이터에 담긴 지식을 흡수하는 과정으로 이해할 수 있습니다. 따라서 고품질 데이터의 마이닝, 수집 및 정리를 더욱 강화해야 합니다.
데이터와 관련하여 고려해야 할 두 가지 측면은 데이터의 질과 양입니다. T5의 비교 실험에 따르면 수량과 품질의 두 가지 요소 중 품질이 우선이며 올바른 경로는 데이터 품질 보장을 전제로 데이터 규모를 늘리는 것이라는 결론을 내릴 수 있습니다.
데이터의 정보 내용과 데이터의 다양성, 기타 측정 기준을 포함한 데이터 품질 예를 들어 Wiki는 분명히 전 세계적으로 지식 밀도가 매우 높은 고품질 데이터입니다. , 그리고 데이터 유형의 다양성 증가 의심할 여지 없이 LLM의 다양한 새로운 기능을 활성화하는 것이 기본입니다. 예를 들어, 질문 및 답변 웹 사이트에서 데이터를 추가하면 LLM이 QA 기능을 향상시키는 데 직접적인 도움이 됩니다. 다양한 데이터는 LLM에 더 다양한 유형의 작업을 더 잘 해결할 수 있는 능력을 부여하므로 이는 데이터 품질에서 가장 중요한 기준이 될 수 있습니다.
데이터의 양과 관련하여 원칙적으로 인터넷에 공개된 모든 데이터는 LLM 모델의 사전 학습 과정에 포함될 수 있습니다. 그렇다면 그 한계는 어디인가? "데이터가 고갈될 것인가? 머신러닝의 데이터셋 확장 한계 분석"에서는 이를 추정하고, 2026년경에는 고품질 NLP 데이터가 고갈되고, 저품질 NLP 데이터는 고갈될 것이라는 결론을 내린다. 2030년. 2050년이면 고갈되고, 저화질 영상 데이터는 2030~2060년이면 고갈된다. 이는 새로운 유형의 데이터 소스를 가지거나 LLM 모델의 데이터 활용 효율성을 높여야 함을 의미합니다. 그렇지 않으면 모델 최적화에 대한 현재의 데이터 기반 접근 방식이 개선을 멈추거나 수익이 감소할 것입니다.

7. 초대형 LLM 모델을 위한 Transformer의 희소화

현재 가장 큰 LLM 중 상당수의 모델이 GPT 3, PaLM, GLaM 등 희소(Sparse) 구조를 채택하고 있으며, GPT 4는 희소 모델 경로를 택할 가능성이 높습니다. 희소 모델을 사용하는 가장 큰 장점은 LLM의 학습 시간과 온라인 추론 시간을 크게 줄일 수 있다는 것입니다. Switch Transformer 논문에서는 동일한 컴퓨팅 성능 예산을 전제로 희소 변환기를 사용하면 Dense Transformer에 비해 LLM 모델의 훈련 속도가 4~7배 증가할 수 있다고 지적했습니다. Sparse 모델이 훈련 및 추론 시간을 단축할 수 있는 이유는 무엇입니까? 이는 모델 매개변수가 엄청나지만 특정 훈련 인스턴스의 경우 Sparse 모델은 라우팅 메커니즘을 통해 전체 매개변수 중 작은 부분만 사용하고 훈련 및 추론에 관련된 활성 매개변수의 수가 상대적으로 적기 때문입니다. 속도가 빠릅니다.
앞으로는 대규모 LLM 모델이 아마도 희소 모델로 수렴될 것이라고 생각합니다. 두 가지 주요 이유가 있습니다. 한편으로는 기존 연구에 따르면(참조: Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers) 표준 Dense Transformer 자체도 훈련 및 추론 중에 드물게 활성화됩니다. 부분 매개 변수가 활성화되며 대부분은 훈련 및 추론 프로세스에 관여하지 않습니다. 이 경우 희소 모델로 직접 마이그레이션하는 것이 나을 수도 있으며 LLM 모델의 규모가 계속 증가할 것이라는 데는 의심의 여지가 없으며 높은 훈련 비용은 모델을 추가로 확장하는 데 중요한 저항 요소입니다. 희소 모델은 초대형 모델의 비용을 크게 줄일 수 있습니다. 훈련 비용은 모델 크기가 클수록 희소 모델의 이점이 더 분명합니다. 이러한 두 가지 측면을 고려하면 향후 더 큰 LLM 모델이 희소 모델 방식을 채택할 가능성이 높습니다.
그렇다면 다른 대규모 모델이 희소 모델의 경로를 택하지 않는 이유는 무엇입니까? Sparse 모델은 훈련이 불안정하고 쉽게 과적합되는 등의 문제가 있기 때문에 잘 훈련하기가 쉽지 않습니다. 따라서 희소 모델이 직면한 문제를 어떻게 수정하고 훈련하기 쉬운 희소 모델을 설계하는가는 향후 중요한 연구 방향이다.

07. 배움의 길: ChatGPT 복제 시 주의할 점

ChatGPT와 같은 멋진 LLM 모델을 재현하고 현재의 다양한 연구 결론을 결합하려면 기술을 선택할 때 다음 문제를 고려해야 합니다. 첫째, 사전 훈련 모드에는 세 가지 옵션이 있습니다
. Bert의 양방향 언어 모델인 GPT와 T5의 하이브리드 모드(Encoder-Decoder 아키텍처, Encoder는 양방향 언어 모델을 채택하고 Decoder는 Autoregressive 언어 모델을 채택하므로 하이브리드 구조이지만 그 본질은 여전히 Bert 모드에 속합니다). 우리는 GPT의 자동회귀 언어 모델을 선택해야 하며, 그 이유는 이 기사의 패러다임 전환 섹션에서 분석됩니다. 현재 국내 LLM이 이 분야에 대한 기술 선정을 할 때, 그들 중 다수가 Bert 양방향 언어 모델이나 T5 혼합 언어 모델의 기술 경로를 택한 것으로 보이며, 그 방향이 빗나갔을 가능성이 높습니다.
둘째, 강력한 추론 능력은 사용자가 LLM을 인식하는 중요한 심리적 기반이며, 현재 경험에 따르면 LLM이 강력한 추론 능력을 갖기를 원한다면 사전 훈련을 할 때 LLM을 위한 많은 코드와 텍스트를 함께 도입하는 것이 가장 좋습니다. .기차. 그 이유에 대해서는 본 글의 해당 부분에 이에 대한 분석이 나와 있다.
셋째, 모델 매개변수의 규모가 그렇게 크지는 않지만 효과는 충분히 좋기를 원한다면 현재 구성할 수 있는 두 가지 기술 옵션이 있습니다. 즉, 고품질 데이터 수집 작업을 강화하거나, 마이닝을 수행하거나, , cleaning 등은 내 모델의 매개변수가 ChatGPT/GPT 4의 절반일 수 있지만 비슷한 효과를 얻으려면 고품질 훈련 데이터의 양이 ChatGPT/GPT 4 모델의 두 배여야 함을 의미합니다( Chinchilla 방식), 다른 하나는 모델 크기를 효과적으로 줄일 수 있습니다. 경로는 텍스트 검색(검색 기반) 모델 + LLM 경로를 취하는 것이며, 이는 등가 효과를 전제로 LLM 모델의 매개변수 규모를 크게 줄일 수도 있습니다. . 이 두 기술의 선택은 상호 배타적인 것이 아니라 상호 보완적인 것으로, 즉 모델 규모가 상대적으로 작다는 전제 하에 이 두 기술을 동시에 사용하면 초대형 모델과 유사한 효과를 얻을 수 있다는 것이다.
넷째, 초대형 모델은 규모가 크기 때문에 훈련 비용이 너무 높아 이를 수행할 수 있는 기관이 거의 ​​없다. 또한, 위의 분석을 통해 LLM 모델의 규모를 지속적으로 확대하는 것은 반드시 일어날 일이며 반드시 이루어져야 함을 알 수 있습니다. 따라서 기술적 수단을 통해 LLM 교육 비용을 어떻게 줄이는 것이 매우 중요합니다. LLM 기능 추출기의 희소화는 모델 교육 및 추론 비용을 효과적으로 줄이기 위한 기술적 선택입니다. 모델이 점점 커질수록 LLM 모델의 희소화도 고려해야 할 옵션임을 알 수 있다.
다섯째, ChatGPT는 현재 이상적인 LLM에 가장 가까운 기술 솔루션이며, 이상적인 LLM은 다양한 상위 수준 작업 유형을 지원하기 위해 거의 전능한 기본 일반 모델을 기반으로 해야 합니다. 현재 점점 더 많은 작업 유형을 지원하는 것은 주로 LLM 사전 학습 데이터의 다양성을 증가시킴으로써 달성됩니다. 데이터 다양성이 높을수록 LLM이 지원할 수 있는 작업 유형이 더 풍부해집니다. 따라서 데이터 다양성을 높여 LLM의 새로운 역량을 강화한다는 아이디어에 주목해야 한다.
여섯째, 사용하기 쉬운 인간-기계 인터페이스입니다. 인간은 자신의 습관적인 표현을 사용하여 작업을 설명하며 LLM은 이러한 지시의 진정한 의미를 이해할 수 있어야 합니다. 또한, 이러한 지시는 인간의 실제 요구와 일치한다는 점도 주목해야 합니다. 즉, 작업 표현 방법은 개발자 자신의 상상이나 추측에 의존하는 대신 최종 사용자로부터 수집되어야 합니다. 실제로 ChatGPT에서 저에게 가장 큰 영감을 준 점은 강화된 학습을 사용하든 말든 중요하지 않다고 생각합니다. 다른 대체 기술도 비슷한 일을 할 수 있어야 한다는 것입니다.

8.ChatGPT: OpenAI를 선택해야 하는 이유

왜 OpenAI가 다른 기관이 아닌 ChatGPT로 만들어졌나요? 여기서 간단한 분석을 할 수 있습니다.
이 기사의 시작 부분에서 OpenAI의 LLM 개념을 언급했습니다. OpenAI는 LLM을 어떻게 보나요? 지속적으로 도입해 온 기술들을 살펴보면, GPT 1.0 이후 기본적으로 LLM을 AGI의 유일한 길로 확고히 여겨왔음을 알 수 있다. 구체적으로 OpenAI의 눈으로 볼 때 미래 AGI는 대용량 데이터로부터 다양한 지식을 학습하는 데 사용되는 작업 독립적인 초대형 LLM이 있고, 이 LLM은 모든 것을 생성하여 다양한 문제를 해결하는 모습이어야 합니다. , 인간이 사용할 수 있도록 인간의 명령을 이해할 수 있어야 합니다. 실제로 LLM 개발 개념에 대한 이해는 전반부에서는 "업무와 무관한 초대형 LLM을 구축하고, 방대한 데이터로부터 다양한 지식을 학습하게 한다"는 것이 후반부이다.
OpenAI의 개념은 상대적으로 진보적이며 자체 위치 지정은 처음부터 상대적으로 높게 설정되어 있으며 위의 방법이 AGI를 실현할 수 있는지 항상 확고하게 탐구해 왔습니다. OpenAI가 ChatGPT를 만들 수 있었던 이유는 하나는 비교적 높은 포지셔닝을 갖고 있고, 다른 하나는 외부 간섭에서 자유롭고 확고한 태도를 갖고 있기 때문이다.
우리는 그 동안의 주요 여정 중 일부를 검토할 수 있습니다. GPT 1.0은 Bert 이전의 생성 모델의 자동 회귀 언어 모델 경로를 따랐습니다. Bert는 양방향 언어 모델이 자동 회귀의 단방향 언어 모델보다 많은 NLP 이해 작업에 더 낫다는 것을 증명했습니다. 그럼에도 불구하고 GPT 2.0은 양방향 언어 모델로 전환하지 않고 여전히 텍스트 생성의 길을 택하고 제로샷(zero Shot) 프롬프트와 퓨샷(Few Shot) 프롬프트를 시도하기 시작했습니다. 실제로 이 시점에서 OpenAI의 마음속에 있는 AGI가 표면화되기 시작했고 점차 그 윤곽이 드러나기 시작했습니다. 제로 샷/몇 샷 효과가 Bert+미세 조정보다 훨씬 나쁘기 때문에 모두가 이를 너무 심각하게 받아들이지 않고 왜 항상 단방향 언어 모델 경로를 고집하는지조차 이해하지 못합니다. 현 시점에서는 OpenAI 자체도 이 경로가 확실히 작동하는지 보장하지 못할 수도 있다고 생각합니다.
그러나 이것이 이 길에서 계속해서 뒤로 걷는 것을 막지는 못합니다. GPT 3.0은 상대적으로 강력한 제로 샷/몇 샷 프롬프트 기능을 시연했으며, 이때 OpenAI의 마음에 있는 AGI는 윤곽이 명확하게 물 밖으로 완전히 누출되었으며 그 효과도 이 길이 잘 될 가능성이 더 높다는 것을 증명합니다. .통과하다 GPT 3.0은 LLM의 발전 방향을 결정하는 분기점이자 분수령이며, 이에 상응하는 또 다른 도로는 "Bert+fine-tuning" 모델이다. 이 갈림길에서 다양한 실무자들이 다양한 길을 선택했고, 그에 따른 기술적 격차도 여기에서 벌어졌습니다. 안타깝게도 많은 국내 실무자들이 'Bert+fine-tuning'의 길을 계속 선택하고 있는데, 이는 오늘날의 후진적인 상황을 초래한 핵심 시점이기도 합니다. 그 다음에는 InstructGPT와 ChatGPT가 있는데, OpenAI는 ChatGPT를 통해 이를 입증했고, 실제 AGI에서는 아직 갈 길이 멀지만 현재로서는 초대형 LLM을 통해 AGI로의 전환이 가능하다.
오늘의 나눔은 여기까지입니다. 모두 감사드립니다.

추천

출처blog.csdn.net/WitsMakeMen/article/details/132302366