ChatGPT 1주년: 대규모 오픈 소스 언어 모델의 영향

2aab90a93cf1b299c0c2d07a5b7195ac.jpeg

ChatGPT는 2022년 말 출시 이후 인공지능 연구 및 비즈니스 분야에 엄청난 변화를 가져왔습니다. 지도된 미세 조정 및 인간 피드백을 통한 강화 학습을 통해 모델은 인간의 질문에 답하고 광범위한 작업 전반에 걸쳐 지침을 따를 수 있습니다. 이러한 성공 이후, LLM에 초점을 맞춘 많은 스타트업을 포함하여 학계와 업계에서 새로운 LLM이 등장하면서 LLM에 대한 관심이 계속해서 높아졌습니다.

폐쇄 소스 LLM(예: OpenAI의 GPT, Anthropic의 Claude)은 일반적으로 해당 오픈 소스 모델보다 우수하지만 후자는 일부 작업에서 ChatGPT와 동등하거나 더 나은 성능을 달성하기 위해 빠른 발전을 이루었습니다. 이는 대규모 언어 모델 연구에 깊은 영향을 미칠 뿐만 아니라, 특별한 상업적 가치도 가지고 있습니다. ChatGPT 출시 1주년을 맞아 이 기사에서는 오픈 소스 LLM의 성공에 대한 포괄적인 검토를 제공하고 오픈 소스 LLM이 ChatGPT 수준에 도달했거나 초과했다고 주장하는 작업을 포괄적으로 조사하는 것을 목표로 합니다.
 

참고: 이 기사의 최신 버전은 12월 5일에 업데이트되었으며 최근 출시된 첫 번째 오픈 소스 MoE 대형 모델 Mixtral(8x7B)은 포함되어 있지 않습니다. 이는 LLaMA2(70B) 및 GPT- 수준에 도달하거나 심지어 능가했다고 합니다. 3.5. (다음 콘텐츠는 OneFlow에서 편집하여 게시했습니다. 재인쇄 승인을 받으려면 당사에 문의하세요. 원문: https://arxiv.org/pdf/2311.16989.pdf)

저자 | 천하  이린(Hailin Chen), 팡카이 자오(Fangkai Jiao) 등

OneFlow 컴파일

번역|Wan Zilin, Yang Ting

소개

1년 전, OpenAI는 ChatGPT를 출시하여 인공 지능 커뮤니티와 전 세계를 빠르게 휩쓸었습니다. 대부분의 질문에 유용하고 안전하며 자세한 답변을 제공하고 지침을 따르며 이전 실수를 인정하고 수정할 수 있는 최초의 앱 기반 AI 챗봇입니다. 특히 요약이나 질문 응답과 같이 미리 훈련된 후 사용자 정의로 미세 조정되는 언어 모델에 의해 일반적으로 수행되는 자연어 작업에 탁월한 것으로 보입니다.

해당 분야 최초의 ChatGPT는 출시 2개월 만에 1억 명의 사용자를 확보하는 등 폭넓은 주목을 받았습니다. 이는 TikTok이나 YouTube와 같은 다른 인기 앱의 성장보다 훨씬 빠른 속도입니다. [1] ChatGPT는 인건비를 절감하고 작업 흐름을 자동화하며 고객에게 새로운 경험을 선사할 수 있기 때문에(Cheng et al., 2023) 막대한 투자도 유치했습니다.

하지만 ChatGPT는 오픈소스가 아니고 민간 기업이 관리하고 있기 때문에 대부분의 기술적 세부 사항은 알려지지 않은 상태입니다. OpenAI는 InstructGPT(GPT-3.5라고도 함)(Ouyang et al., 2022b)에 도입된 절차를 따른다고 주장하지만 정확한 아키텍처, 사전 훈련 데이터 및 미세 조정 데이터는 알려져 있지 않습니다. 이러한 비공개 소스 특성으로 인해 몇 가지 주요 문제가 발생합니다.

첫째, 사전 교육 및 미세 조정 절차의 내부 세부 사항을 이해하지 못하기 때문에, 특히 LLM이 유해하고 비윤리적이며 사실이 아닌 콘텐츠를 생성하는 데 익숙하다고 알려진 경우에는 잠재적인 위험을 정확하게 평가하기가 어렵습니다. ChatGPT를 사회에 전달하세요. 둘째, ChatGPT의 성능은 시간이 지남에 따라 변화하여 재현 가능한 결과를 방해하는 것으로 보고되었습니다(Chen et al., 2023). 셋째, ChatGPT는 여러 번의 실패를 경험했습니다. 2023년 11월에만 두 번의 큰 실패가 발생했으며, 그 동안 ChatGPT 웹사이트와 해당 API에 대한 액세스가 완전히 차단되었습니다. 넷째, ChatGPT를 채택하는 기업은 API 호출에 따른 높은 비용, 서비스 중단, 데이터 소유권, 개인 정보 보호 및 기타 문제는 물론 최근 CEO인 Sam Altman의 해고, 직원이 이사회를 강요하는 등 기타 긴급 상황에 대해 걱정할 수 있습니다. 그리고 Sam의 최종 복귀 기업 이사회 드라마.

반면, 오픈 소스 언어 대형 모델은 앞서 설명한 대부분의 문제를 잠재적으로 보완하거나 회피하므로 유망한 방향을 제시합니다. 이러한 이유로 연구 커뮤니티에서는 오픈 소스 환경에서 고성능 LLM의 유지 관리를 적극적으로 추진해 왔습니다. 그러나 2023년 말 현재 LLaMa-2(Touvron et al., 2023) 또는 Falcon(Almazrouei et al., 2023)과 같은 오픈 소스 LLM은 OpenAI의 GPT3와 같은 해당 폐쇄 소스 모델보다 뒤처져 있다는 것이 널리 알려져 있습니다. .5(ChatGPT) 및 GPT -4(OpenAI, 2023b), Anthropic의 Claude 2 또는 Google의 Bard 3 중 GPT-4가 일반적으로 최고의 비공개 소스 모델로 간주됩니다. 그러나 오픈 소스 모델과 폐쇄 소스 모델 간의 격차가 점차 줄어들고 있으며 오픈 소스 LLM이 빠르게 따라잡는 모습을 보는 것은 흥미롭습니다.

c848e30df63246bb8480e58f87d854fa.png

그림 1: 다양한 공통 벤치마크에 대한 다양한 LLM 개요.


실제로 그림 1에서 볼 수 있듯이 최고의 오픈 소스 LLM은 일부 표준 벤치마크에서 GPT-3.5-turbo보다 ​​더 나은 성능을 달성했습니다. 그러나 이는 오픈소스 LLM의 간단한 과제가 아닙니다. 상황은 여전히 ​​진화하고 있습니다. 비공개 소스 LLM은 업데이트를 위해 최신 데이터에 대해 정기적으로 재교육을 받고 있으며, 오픈 소스 LLM도 뒤처지지 않고 지속적으로 새 버전을 출시하고 있습니다. 현재 LLM 평가 데이터 세트와 벤치마크는 복잡하고 다양하여 최고의 LLM을 선택하기가 어렵습니다.

이 기사는 오픈 소스 LLM에 대한 최근 연구를 통합하고 다양한 분야에서 ChatGPT와 어떻게 경쟁하거나 능가하는지에 대한 개요를 제공하는 것을 목표로 합니다. 우리의 기여는 주로 다음 세 가지 측면을 포함합니다.

• 오픈 소스 LLM에 대한 다양한 평가를 통합하고 오픈 소스 LLM을 ChatGPT와 비교하는 편견 없고 포괄적인 관점을 제공합니다(그림 1, 섹션 3.1 참조).

• 다양한 작업에서 ChatGPT의 성능과 일치하거나 이를 능가하는 오픈 소스 LLM을 체계적으로 조사하고 해당 분석을 수행했습니다(그림 2, 섹션 3, 섹션 4.2 참조). 또한 최신 모델 업데이트를 추적하기 위한 라이브 웹페이지를 유지관리하고 있습니다. [4]

• 오픈 소스 LLM의 개발 추세(섹션 4.1), 오픈 소스 LLM 교육을 위한 모범 사례(섹션 4.3) 및 오픈 소스 LLM의 가능한 문제(섹션 4.4)를 분석합니다.

이 보고서의 혜택을 누릴 수 있는 사람은 누구입니까? 본 연구의 목적은 학계와 업계가 오픈 소스 LLM의 현재 환경과 미래 잠재력을 이해하도록 돕는 것입니다. 연구자들에게 이 기사는 오픈 소스 LLM의 현재 진행 상황과 변화하는 추세에 대한 철저한 검토를 제공하고 향후 연구를 위한 유망한 방향을 제시합니다. 상업 부문의 경우 이 설문 조사는 의사 결정자가 오픈 소스 LLM 채택의 적합성과 이점을 평가하는 데 도움이 되는 귀중한 통찰력과 지침을 제공합니다.

다음으로 먼저 배경 개념을 소개하고(섹션 2) 다양한 도메인에서 ChatGPT를 능가하는 오픈 소스 LLM에 대한 심층 탐색을 제공한 다음(섹션 3) 오픈 소스 LLM에 대한 통찰력과 문제를 논의합니다(섹션 4). 마지막으로 결론을 내린다(섹션 5).

2

배경

이 섹션에서는 LLM과 관련된 기본 개념을 간략하게 설명합니다.

2.1 트레이닝 모드

사전 훈련: 모든 LLM은 인터넷 텍스트 데이터에 대한 대규모 자체 감독 사전 훈련에 의존합니다(Radford et al., 2018; Brown et al., 2020). 디코더 전용 LLM은 인과 언어 모델링 목표를 따릅니다. 즉, 모델은 이전 토큰의 시퀀스를 바탕으로 다음 토큰을 예측하는 방법을 학습합니다(Bengio et al., 2000). 오픈 소스 LLM(Touvron et al., 2023a)이 공유하는 사전 학습 세부 정보에 따르면 텍스트 데이터 소스에는 CommonCrawl5, C4(Raffel et al., 2020), GitHub, Wikipedia, 서적, 온라인 토론 및 교환 콘텐츠 등이 포함됩니다. Reddit 또는 StackOverFlow로. 사전 훈련 코퍼스의 크기를 늘리는 것은 모델 성능을 향상시킬 수 있고 모델 크기를 늘리는 것과 상호보완적인 것으로 알려져 있는데, 이 현상을 스케일링 법칙이라고 하며 심층적으로 분석하고 있습니다(Hoffmann et al., 2022a). 오늘날 LLM의 사전 훈련 코퍼스의 크기는 수천억에서 수조 단어에 달할 수 있습니다(Touvron et al., 2023b; Penedo et al., 2023).

미세 조정 [8] : 목표는 일반적으로 사전 학습에 사용되는 데이터 세트보다 크기가 훨씬 작은 데이터 세트를 구성하는 기존 감독 정보를 사용하여 가중치를 업데이트하여 사전 훈련된 LLM을 다운스트림 작업에 적용하는 것입니다. 훈련(Devlin et al., 2018). T5(Raffel et al., 2020)는 각 작업이 자연어 지침으로 설명되는 텍스트-텍스트 통합 프레임워크에 미세 조정을 통합한 최초의 모델 중 하나입니다.

지시 미세 조정: 미세 조정의 범위는 나중에 여러 작업에 대한 훈련을 통해 확장되었습니다(Wei et al., 2021a; Aribandi et al., 2021). 여기서 각 작업은 자연어 지시로 설명됩니다. 안내식 미세 조정은 훈련 중에 볼 수 없는 새로운 작업에 대한 성능을 포함하여 LLM의 제로 샷 성능을 크게 향상시키는 기능으로 인해 빠르게 인기를 얻었습니다.

표준 지침 미세 조정 및 다중 작업 감독 미세 조정(종종 SFT 라고도 함)은 여전히 ​​인간의 의도와 일치하고 안전하고 윤리적이며 무해한 모델을 생성하지 못할 수 있으며 인간과의 강화 학습을 통해 더욱 개선될 수 있습니다. 피드백( RLHF )(Ouyang et al., 2022b): 인간 주석자가 미세 조정된 모델의 출력을 채점한 다음 강화 학습을 다시 사용하여 모델을 미세 조정합니다(Ouyang et al., 2022b). 최근 연구에 따르면 인간 피드백은 AI 피드백 강화 학습( RLAIF ) 이라고 하는 프로세스인 LLM의 피드백으로 대체될 수 있는 것으로 나타났습니다 (Bai et al., 2022b). 직접 선호 최적화( DPO )는 보상 모델을 인간 선호에 맞추기 위해 RLHF의 필요성을 우회하고 교차 엔트로피 목표를 직접 사용하여 정책을 미세 조정함으로써 LLM을 인간 선호에 보다 효과적으로 정렬합니다.

일부 연구는 다중 작업 명령 미세 조정 데이터 세트를 구축할 때 양보다는 질에 중점을 둡니다. Lima(Zhou et al., 2023a)는 Llama-65B를 미세 조정하기 위해 1000개의 예만 사용하며 결과는 GPT-3를 능가합니다. Alpagasus(Chen et al., 2023c)는 명령 미세 조정 데이터 세트를 정리하여 예제 수를 52,000에서 9,000으로 줄임으로써 Alpaca(Taori et al., 2023)의 성능을 개선했습니다.

지속적 사전 학습: 일반적으로 첫 번째 단계보다 적은 양의 데이터를 사용하여 사전 학습된 LLM(Language Large Model)에 대한 또 다른 사전 학습을 의미합니다. 이 프로세스는 새로운 영역에 빠르게 적응하거나 LLM의 새로운 기능을 도입하는 데 사용될 수 있습니다. 예를 들어, Lemur(Xu et al., 2023d)에서는 인코딩 및 추론 기능을 개선하기 위해 지속적인 사전 훈련을 사용하고, Llama-2-long(Xiong et al., 2023)에서는 컨텍스트 창을 확장하는 데 사용됩니다.

추론: 자동 회귀 디코딩을 위해 LLM을 사용하여 시퀀스 생성에 대한 여러 대안이 있으며, 이는 출력의 무작위성과 다양성의 정도가 다릅니다. 샘플링 프로세스 중에 온도 매개변수를 높이면 출력이 더 다양해질 수 있으며, 온도를 0으로 설정하면 결정적 출력이 필요할 때 필요할 수 있는 탐욕스러운 디코딩으로 되돌아갑니다. 샘플링 방법 top-k(Fan et al., 2018) 및 top-p(Holtzman et al., 2019)는 각 디코딩 단계에서 샘플링에 사용할 수 있는 토큰 풀을 제한합니다.

특히 긴 시퀀스 길이에서 추론 속도를 향상시키는 데 사용되는 몇 가지 기술이 있습니다. 이는 입력 길이에 따른 주의 복잡성의 2차 증가로 인해 다루기 어려워집니다. FlashAttention(Dao et al., 2022)은 GPU 메모리 계층 간의 읽기/쓰기 작업을 최적화하여 훈련 및 추론을 가속화합니다. FlashDecoding(Dao et al., 2023)은 Attention 메커니즘의 키-값(KV) 캐시를 병렬로 로드하여 종단 간 속도를 최대 8배까지 높입니다. 추측적 디코딩(Leviathan et al., 2023; Chen et al., 2023b)은 추가 소규모 언어 모델을 사용하여 LLM의 다음 토큰 분포를 근사화하여 디코딩을 가속화하는 동시에 성능을 유지합니다. vLLM(Kwon et al., 2023)은 주의 키와 값 메모리 사용을 최적화하는 알고리즘인 PagedAttention 알고리즘을 활용하여 LLM 추론 및 제공을 가속화합니다.

2.2 업무 영역 및 평가

LLM 역량에 대한 적절한 평가는 다양하고 광범위한 평가의 필요성으로 인해 활발한 연구 영역으로 남아 있습니다. 질문 답변 데이터 세트(Joshi et al., 2017; Kwiatkowski et al., 2019; Lin et al., 2022)는 매우 인기 있는 평가 벤치마크이지만, LLM 평가에 특별히 맞춤화된 새로운 벤치마크가 최근 등장했습니다(Dubois et al., 2023 ; Beeching 외, 2023; Zheng 외, 2023).

오픈 소스 LLM과 ChatGPT

이 장에서는 일반화 기능, 에이전트 기능, 논리적 추론(수학적 및 코딩 기능 포함), 긴 텍스트 모델링, 특정 애플리케이션(예: Q&A 또는 요약) 및 신뢰성이라는 6가지 주요 영역에서 LLM의 기능을 살펴보겠습니다. 제한된 내용 길이로 인해 관심 있는 독자는 원본 논문의 섹션 3을 자세히 읽을 수 있습니다(https://arxiv.org/pdf/2311.16989.pdf). 이 섹션의 중요한 결론은 섹션 4에 나와 있습니다.

4

논의하다

4.1 LLM의 발전 동향

Brown et al.(2020)이 GPT-3 모델이 다양한 작업에서 놀라운 제로샷 및 퓨샷 성능을 달성할 수 있음을 입증한 이후 사람들은 언어 대형 모델(LLM)의 개발 및 홍보에 많은 에너지를 투자하기 시작했습니다. ). 연구 방향 중 하나는 Gopher(Rae et al., 2021), GLaM(Du et al., 2022), LaMDA(Thoppilan et al., 2022), MT-NLG(Smith et al., 2022)를 포함하여 모델 매개변수 규모를 확장하는 데 중점을 둡니다. al., 2022) et al., 2022) 및 PaLM(Chowdhery et al., 2022)에 따르면 최종 모델 크기는 5,400억 개의 매개변수에 도달합니다. 이들 모델은 뛰어난 성능을 보여주지만 폐쇄형 소스 모델이기 때문에 폭넓은 적용이 제한되어 있어 점차 오픈소스 LLM 개발에 대한 관심이 높아지고 있다(Zhang et al., 2022; Workshop et al., 2022) ).

모델을 확장하는 대신, 또 다른 연구 라인에서는 Chinchilla(Hoffmann et al., 2022b) 및 UL2(Tay et al., 2022)와 같은 더 작은 모델을 사전 훈련하기 위한 더 나은 전략이나 목표를 탐구합니다. 사전 훈련 외에도 사람들은 FLAN(Wei et al., 2021b), T0(Sanh et al., 2021) 및 Flan-T5(Chung et al., 2021)와 같은 언어 모델의 교수 미세 조정을 연구하는 데 전념합니다. al., 2022).

1년 전 OpenAI는 자연어 처리(NLP) 커뮤니티의 연구 초점을 크게 변화시킨 ChatGPT를 출시했습니다(Qin et al., 2023a). OpenAI를 따라잡기 위해 Google과 Anthropic은 각각 Bard와 Claude를 출시했습니다. 많은 작업에서 성능이 ChatGPT와 비슷하지만 최신 OpenAI 모델인 GPT-4(OpenAI, 2023b)와는 여전히 성능 격차가 있습니다. 이러한 모델의 성공은 주로 RLHF(Reinforcement Learning with Human Feedback)(Schulman et al., 2017b; Ouyang et al., 2022a)에서 비롯되므로 연구자들은 RLHF에 대한 다양한 개선 사항을 모색했습니다(Yuan et al., 2023; Rafailov et al. al., 2023) People, 2023b; Lee et al., 2023b).

오픈 소스 언어 대형 모델에 대한 연구를 촉진하기 위해 Meta는 LLaMA 시리즈 모델을 출시했습니다(Touvron et al., 2023a, b). 이후 LLaMA를 기반으로 한 오픈 소스 모델이 빠르게 등장했습니다. 대표적인 연구 방향 중 하나는 Alpaca(Taori et al., 2023), Vicuna(Chiang et al., 2023), Lima(Zhou et al., 2023b) 및 WizardLM( Xu 외, 2023a). 현재 연구에서는 또한 LLaMA(Xu et al., 2023d; Zeng et al., 2023; Patil et al., 2023; Qin et al., 2023b), 논리적 추론(Roziere et al. , 2023; Luo et al., 2023a,c) 및 장기 컨텍스트 모델링(Tworkowski et al., 2023; Xiong et al., 2023; Xu et al., 2023b) 기능. 또한 LLaMA를 기반으로 LLM을 개발하는 대신 MPT(Team, 2023), Falcon(Almazrouei et al., 2023), XGen(Nijkamp et al., 2023) 등 강력한 LLM을 처음부터 훈련하는 데 전념하는 많은 작업이 있습니다. , Phi(Gunasekar et al., 2023; Li et al., 2023e), Baichuan(Yang et al., 2023a), Mistral(Jiang et al., 2023a), Grok(xAI, 2023) 및 Yi(01ai, 2023). 우리는 폐쇄 소스 LLM 기능을 대중화하기 위해 더욱 강력하고 효율적인 오픈 소스 LLM을 개발하는 것이 유망한 미래 연구 방향이라고 믿습니다.

4.2 요약

전반적인 기능 측면에서 Llama-2-chat-70B(Touvron et al., 2023b)는 일부 벤치마크에서 GPT-3.5-turbo보다 ​​성능이 뛰어나지만 대부분의 다른 작업에서는 여전히 뒤처집니다. 증류된 직접 선호도 최적화를 통해 Zephir-7B(Tunstall et al., 2023)는 70B LLM의 성능에 접근합니다. WizardLM-70B(Xu et al., 2023a) 및 GodziLLa-70B(필리핀, 2023)는 GPT-3.5 터보와 비슷한 성능을 달성할 수 있어 이것이 유망한 연구 방향임을 나타냅니다.

일부 영역에서는 오픈 소스 LLM이 GPT-3.5 터보보다 성능이 뛰어납니다. LLM 기반 에이전트의 경우 오픈 소스 LLM은 보다 광범위하고 작업별 사전 훈련 및 미세 조정을 통해 일부 작업에서 GPT-3.5 터보를 능가할 수 있습니다. 예를 들어 Lemur-70B-chat(Xu et al., 2023d)은 환경을 탐색하고 인코딩 작업의 피드백을 따르는 데 더 나은 성능을 발휘합니다. AgentTuning(Zeng et al., 2023)은 알려지지 않은 에이전트 작업을 개선합니다.

ToolLLama(Qin et al., 2023b)는 더 나은 도구 사용을 가능하게 합니다. Gorilla(Patil et al., 2023)는 GPT-4보다 API 호출 작성에 더 좋습니다.

논리적 추론 측면에서 WizardCoder(Luo et al., 2023c)와 WizardMath(Luo et al., 2023a)는 향상된 명령어 미세 조정을 통해 추론 능력을 향상시킵니다. Lemur(Xu et al., 2023d)와 Phi(Gunasekar et al., 2023; Li et al., 2023e)는 더 높은 품질의 데이터에 대한 사전 학습을 통해 더 강력한 기능을 달성했습니다.

긴 컨텍스트를 모델링하기 위해 Llama-2-long(Xiong et al., 2023)은 사전 훈련을 위해 더 긴 토큰과 더 큰 컨텍스트 창을 사용하여 선택한 벤치마크에서 성능이 향상되었습니다. Xu et al.(2023b)은 컨텍스트 창 확장과 위치 보간 및 검색 향상을 결합하여 7개의 긴 컨텍스트 작업의 성능을 개선했습니다. 애플리케이션별 기능의 경우 InstructRetro(Wang et al., 2023a)는 검색 및 지침 미세 조정을 사용한 사전 학습을 통해 개방형 질문 답변의 성능 향상을 달성했습니다. 작업별 미세 조정을 통해 MentaLlama-chat-13B(Yang et al., 2023c)는 정신 건강 분석 데이터 세트에서 GPT-3.5-turbo의 성능을 능가합니다. Radiology-Llama2(Liu et al., 2023)는 방사선 보고의 성능을 향상시킬 수 있습니다. Stru-Bench(Tang et al., 2023b)는 에이전트 작업을 지원하는 핵심 기능인 GPT-3.5-turbo에 비해 구조화된 응답 생성을 향상시키는 미세 조정된 7B 모델입니다. Shepherd(Wang et al., 2023c)는 7B 매개변수만 가지며 모델 피드백 및 평가 생성에서 GPT-3.5 터보와 동등하거나 더 나은 성능을 달성할 수 있습니다. 신뢰할 수 있는 AI의 경우 고품질 미세 조정 데이터(Lee et al., 2023a), 상황 인식 디코딩 기술(Dhuliawala et al., 2023) 및 Li et al.과 같은 외부 지식 향상을 사용하여 환각을 줄일 수 있습니다. (2023c), Yu 등(2023b), Peng 등(2023), Feng 등(2023) 또는 다중 에이전트 대화(Cohen 등, 2023; Du 등, 2023).

인공지능 보안 등 분야에서는 GPT-3.5-터보와 GPT-4가 여전히 타의 추종을 불허한다. GPT 모델에는 대규모 RLHF(Bai et al., 2022a)가 포함되므로 일반적으로 더 안전하고 윤리적으로 행동하는 것으로 간주됩니다. 이는 오픈 소스 LLM보다 상업용 LLM에 더 중요할 수 있습니다. 그러나 RLHF 프로세스의 민주화(Bai et al., 2022b; Rafailov et al., 2023a)를 통해 오픈 소스 LLM은 보안 측면에서 더 많은 성능 향상을 달성할 것입니다.

4.3 최고의 오픈 소스 LLM의 비밀

대규모 언어 모델의 교육에는 복잡한 실습이 필요하며 데이터 수집, 전처리, 모델 설계 및 교육을 포함하여 많은 리소스가 필요합니다. 오픈 소스 LLM의 출시가 증가하고 있음에도 불구하고 불행히도 선도 모델의 세부 관행은 비밀로 유지되는 경우가 많습니다. 다음은 커뮤니티에서 인정한 몇 가지 모범 사례입니다.

데이터: 사전 훈련에는 공개적으로 접근 가능한 소스에서 얻은 수조 개의 데이터 토큰이 사용됩니다. 윤리적 관점에서 개인정보가 포함된 모든 데이터를 제거하는 것이 중요합니다(Touvron et al., 2023b). 사전 훈련 데이터와 달리 미세 조정 데이터는 양은 적지만 품질은 높습니다. 고품질 데이터를 사용하여 미세 조정된 LLM은 특정 영역에서 더 나은 성능을 보여주었습니다(Philippines, 2023; Zeng et al., 2023; Xu et al., 2023d, a).

모델 아키텍처: 대부분의 LLM은 디코더 전용 Transformer 아키텍처를 사용하지만 효율성을 최적화하기 위해 다른 기술도 사용합니다. Llama-2는 다중 회전 대화 제어를 개선하기 위해 Ghost 주의를 채택합니다(Touvron et al., 2023b). Mistral(Jiang et al., 2023b)은 슬라이딩 윈도우 어텐션을 사용하여 확장된 컨텍스트 길이를 처리합니다.

훈련: 명령 미세 조정 데이터를 사용하는 SFT(감독 미세 조정) 프로세스가 중요합니다. 고품질 결과를 얻으려면 27540 주석을 사용하는 Llama-2와 같은 수만 개의 SFT 주석이 필요합니다(Touvron et al., 2023b). 데이터 다양성과 품질이 중요합니다(Xu et al., 2023a). RLHF 단계에서는 모델 행동을 인간 선호도 및 지침에 더 잘 맞추기 위해 PPO(Proximal Policy Optimization)(Schulman et al., 2017a) 알고리즘이 선호되는 경우가 많으므로 근접 정책 최적화는 LLM 보안을 강화하는 데 중요한 역할을 합니다. 직접 선호 최적화(DPO)는 PPO의 대안입니다(Rafailov et al., 2023a). 예를 들어 Zephyr-7B(Tunstall et al., 2023)는 증류된 DPO를 사용하고 다양한 일반 벤치마크에서 70B-LLM과 비슷한 성능을 보여주며 심지어 AlpacaEval의 GPT-3.5 터보를 능가합니다.

4.4 취약점 및 잠재적인 문제

사전 훈련 중 데이터 오염: 이 문제는 특히 공개적으로 사용 가능한 사전 훈련 코퍼스 소스 없이 기본 모델이 출시된 이후 점점 더 두드러졌습니다. 이러한 투명성 부족으로 인해 사람들은 LLM(Language Large Model)의 진정한 일반화 기능에 대해 편견을 갖게 될 수 있습니다. 인간 전문가 또는 대규모 모델이 벤치마크 데이터에 주석을 달고 훈련 세트에 수동으로 통합하는 것 외에도 데이터 오염 문제의 근본 원인은 벤치마크 데이터 수집 소스가 사전 훈련 코퍼스에 포함되어 있다는 것입니다. 이러한 모델은 지도 데이터를 사용하여 의도적으로 사전 학습되지는 않지만 여전히 정확한 지식을 얻을 수 있습니다. 따라서 LLM 사전 훈련 말뭉치의 탐지 문제를 해결하고(Shi et al., 2023), 기존 벤치마크와 널리 사용되는 사전 훈련 말뭉치 간의 중복을 탐색하고, 벤치마크의 과적합을 평가하는 것이 중요합니다(Wei et al. , 2023) 이는 LLM의 충성도와 신뢰성을 높이는 데 매우 중요합니다. 앞으로 미래 방향에는 사전 학습 말뭉치의 세부 정보를 공개하고 모델 개발 수명주기 전반에 걸쳐 데이터 오염을 완화하는 방법을 개발하기 위한 표준화된 관행을 확립하는 것이 포함될 수 있습니다.

비공개 소스 정렬 개발: 커뮤니티 내에서 정렬을 위해 공통 선호도 데이터를 사용하는 RLHF 애플리케이션이 점점 더 많은 관심을 받고 있습니다. 그러나 공개적으로 사용 가능한 고품질 기본 설정 데이터 세트와 사전 훈련된 보상 모델이 부족하기 때문에 소수의 오픈 소스 LLM만이 향상된 정렬을 통해 RLHF를 적용했습니다. 오픈 소스 커뮤니티에 기여하려는 시도로 여러 이니셔티브(Bai et al., 2022a; Wu et al., 2023; Cui et al., 2023)가 제안되었습니다. 그러나 복잡한 추론, 프로그래밍 및 보안 시나리오에서 우리는 여전히 다양하고 품질이 뛰어나며 확장 가능한 선호도 데이터가 부족하다는 문제에 직면해 있습니다.

모델의 기본 기능을 지속적으로 개선하는 데 어려움이 있음: 이 기사에 설명된 기본 기능 혁신은 몇 가지 어려운 문제를 드러냅니다: (1) 사전 훈련 중에 보다 강력한 모델 구축을 개선하기 위해 향상된 데이터 조합을 탐색하는 데 상당한 노력이 투자되었습니다. 기본 모델의 견고성. 그러나 이 시도와 관련된 비용은 높으며 실제 적용에서는 현실적이지 않습니다. (2) 성능 면에서 GPT-3.5-turbo 또는 GPT-4를 능가하는 모델, 주로 비공개 소스 모델의 지식 증류 및 추가 전문가 주석을 활용합니다. 효율적이기는 하지만 지식 증류에 대한 이 접근 방식의 과도한 의존으로 인해 이러한 방법을 교사 모델로 확장할 때 발생할 수 있는 문제가 모호해질 수 있습니다.

또한 사람들은 LLM이 에이전트 역할을 하고 의사 결정을 지원하기 위해 합리적인 설명을 제공할 것으로 기대합니다. 그러나 LLM을 실제 시나리오에 적용하려면 에이전트와 유사한 데이터에 주석을 추가하는 것도 마찬가지로 비용과 시간이 많이 걸립니다. 본질적으로 지식 증류나 전문가 주석을 통한 최적화만으로는 LLM의 기본 역량을 지속적으로 향상시킬 수 없으며 상한선에 접근할 가능성이 높습니다. 향후 연구 방향에는 관련 문제와 비용을 완화하면서 기본 LLM 기능의 지속적인 발전을 달성하기 위해 비지도 학습 패러다임이나 자기 지도 학습 패러다임과 같은 새로운 방법론을 탐구하는 것이 포함될 수 있습니다.

5

요약하다

본 보고서에서는 출시 1년 후 다양한 작업에서 ChatGPT를 능가하거나 따라잡는 고성능 오픈소스 LLM을 체계적으로 검토합니다(섹션 3). 또한 오픈 소스 언어 대형 모델에 대한 심층적인 통찰력과 분석을 제공하고 잠재적인 문제를 탐색합니다(섹션 4). 우리는 이 설문 조사가 오픈 소스 LLM의 향후 개발 방향을 탐색하는 데 도움이 될 것이며 이 분야의 추가 연구 및 개발을 촉진하여 오픈 소스와 폐쇄 소스 모델 간의 격차를 줄이는 데 도움이 될 것이라고 믿습니다.


DeepCache 및 OneDiff로 SDXL 반복 속도를 3배 향상

최근 DeepCache는 확산 모델을 가속화하기 위해 훈련이 필요 없고 거의 무손실에 가까운 새로운 패러다임을 제공합니다. 이제 OneDiff는 SDXL의 반복 속도를 RTX 3090에서 3.5배 , A100에서 3배 증가시키는 ModuleDeepCacheSpeedup 이라는 새로운 ComfyUI Node(컴파일된 DeepCache 모듈)를 도입했습니다 .

: https://github.com/Oneflow-Inc/onediff/pull/426
사용 가이드 : https://github.com/Oneflow-Inc/onediff/tree/main/onediff_comfy_nodes#installation-guide

770cda693a0c0fc2bdffb7de69aa2d1b.png

남들 다 보고 있는데

OneFlow 사용: github.com/Oneflow-Inc/oneflow/ icon-default.png?t=N7T8http://github.com/Oneflow-Inc/oneflow/

Guess you like

Origin blog.csdn.net/OneFlow_Official/article/details/135120851