구글, 가장 강력한 AI 대형 모델 Gemini 출시 (chatgpt4 능가)

1 쌍둥이자리 소개

미국의 거대 기술 기업인 Google은 가장 크고 강력한 AI 지능 모델로 간주되는 Gemini의 출시를 발표했습니다. 이번에 구글이 출시한 Gemini 모델은 다중 모드를 구현해 성능을 대폭 향상시킬 수 있는데, Gemini는 Transformer 디코더를 기반으로 구축된 다중 모드 모델로, 이 기술은 비디오, 오디오, 텍스트 등 다양한 콘텐츠 형태의 정보를 처리할 수 있다. 이전 기술과 비교하여 최신 Gemini 모델은 더 복잡한 추론을 수행하고 더 미묘한 정보를 이해할 수 있습니다. 정보를 읽고 필터링하고 이해함으로써 수십만 개의 문서에서 핵심 사항을 추출할 수 있으며, 이는 과학에서 금융에 이르기까지 다양한 분야에서 새로운 돌파구를 달성하는 데 도움이 될 것입니다.

Gemini官网:https://deepmind.google/technologies/gemini/#introduction

문서 주소:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini 모델은 크기에 따라 Gemini Ultra, Gemini Pro 및 Gemini Nano의 세 가지 버전으로 나눌 수 있으며 모두 상황에 맞는 32K 이해를 지원합니다.

  • Ultra 버전은 가장 강력한 버전으로 해당 TPU 인프라에서 가장 높은 효율성을 보여줄 수 있으며, 많은 테스트에서 Ultra 버전의 성능이 GPT4V를 초과합니다.

  • Pro 버전은 최적화된 성능을 갖춘 비용 효율적인 버전입니다. 또한 추론, 다중 양식 등의 강력한 기능을 갖추고 있습니다. Pro 버전은 확장성이 좋고 몇 주 내에 사전 훈련을 완료할 수 있습니다. GPT4V에 이어 두 번째입니다. 여러 테스트에서 PaLM2보다 강력합니다., Claude2, LLaMA2, GPT3.5 및 기타 주류 대형 모델;

  • Nano: 다른 모델을 증류한 4비트 모델로 1.8B와 3.25B의 두 가지 버전이 있으며 각각 저메모리 장치와 고용량 메모리 장치를 대상으로 하며 로컬 배포를 지원합니다.

Gemini는 Google이 개발한 일련의 고성능 다중 모드 모델입니다. 이러한 모델은 이미지, 오디오, 비디오 및 텍스트 데이터를 다루도록 공동으로 학습됩니다. 각 특정 영역 내에서 탁월한 이해와 추론 성능을 발휘하면서 강력한 일반 능력을 갖춘 모델을 구축할 수 있기를 기대합니다.

Gemini 1.0은 Ultra, Pro, Nano의 세 가지 규모를 갖춘 다중 모드 AI 모델로, 각각은 서로 다른 작업 복잡성과 애플리케이션 요구 사항에 맞게 설계되었습니다. 이러한 모델은 언어, 프로그래밍, 추론 및 다중 모드 작업을 다루는 다양한 내부 및 외부 벤치마크에서 뛰어난 성능을 보여줍니다. Gemini는 대규모 언어 모델링에서 놀라운 결과를 얻었으며 이미지 이해, 오디오 처리, 비디오 이해 및 기타 분야에서도 성능이 매우 좋습니다. 또한 Gemini의 개발에는 시퀀스 모델, 신경망 기반 딥 러닝, 머신 러닝 분산 시스템 분야의 장기간 연구도 도움이 됩니다.

이 보고서에서 가장 강력한 모델인 Gemini Ultra가 훨씬 앞서 있습니다. 32개 벤치마크 중 30개에서 새로운 최첨단 결과가 달성되었습니다. 텍스트 이해, 이미지 이해, 비디오 이해, 음성 인식, 음성 번역 등의 영역에서 뛰어난 성능을 입증했습니다. 특히 주목할 점은 Gemini Ultra가 MMLU 시험 벤치마크에서 처음으로 인간 전문가 수준에 도달하여 90% 이상의 점수를 얻었다는 것입니다. 또한 최신 다중 모달 추론 벤치마크 테스트 MMMU에서도 Gemini Ultra는 이전 모델을 능가하는 62.4%의 높은 점수를 획득했습니다. 이는 비디오 질문 응답 및 오디오 이해와 같은 다중 모드 영역에서 통합된 성능 향상을 보여줍니다.

Gemini 모델의 질적 평가는 오디오, 이미지 및 텍스트가 포함된 복잡한 입력 시퀀스를 이해할 수 있는 교차 모달 추론의 놀라운 능력을 보여줍니다. 그림 1의 교육 시나리오를 예로 들면, Gemini는 손으로 쓴 지저분한 물리 문제를 이해하고, 문제와 학생들의 솔루션을 정확하게 분석하고, 잘못된 단계를 식별하고, 정답을 제공할 수 있습니다. 이러한 기능은 복잡한 문제를 이해하고 처리하는 모델의 능력을 보여줄 뿐만 아니라 교육 및 기타 분야에 새로운 응용 가능성을 제시합니다.

또한 AlphaCode 팀은 Gemini의 기술 지원을 받아 새로운 에이전트인 AlphaCode 2를 개발했습니다. 경쟁 프로그래밍 문제를 해결하기 위해 특별히 설계된 Gemini의 추론 기능, 검색 기능 및 도구 사용 기술을 통합합니다. 잘 알려진 경쟁 프로그래밍 플랫폼인 Codeforces에서 AlphaCode 2는 상위 15%에 진입하여 이전 제품의 최고 결과 중 상위 50%를 훨씬 능가하는 매우 좋은 성능을 보였습니다. 이러한 발전은 복잡한 다단계 문제를 해결하는 데 있어 대규모 언어 모델의 상당한 잠재력을 보여줍니다.

또한 팀에서는 모델의 효율성에도 주목하여 장치 내 작업 효율성을 향상시키는 데 상당한 진전을 이룬 Gemini Nano 시리즈를 출시했습니다. 이러한 모델은 요약, 독해, 텍스트 완성과 같은 작업을 수행하는 데 특히 좋습니다. 또한 모델의 작은 크기에도 불구하고 추론, STEM 분야, 프로그래밍, 다중 모드 및 다중 언어 작업에 대한 성능은 여전히 ​​인상적입니다. 이러한 기능을 통해 Gemini Nano는 크기와 성능 간의 균형이 잘 맞습니다.

다음 장에서는 먼저 Gemini 모델 아키텍처, 교육 인프라 및 교육 데이터 세트에 대한 개요를 제공한 다음 텍스트, 코드, 이미지 분야의 수많은 벤치마크 및 벤치마크를 포함하여 Gemini 모델 계열에 대한 자세한 평가를 수행합니다. , 오디오 및 비디오 인간 선호도 평가. 이 백서는 또한 영향 평가, 모델 정책 개발, 평가 및 위험 완화 조치를 포함하여 책임감 있는 배포 방법(Gemini가 공식적으로 대중에게 공개되기 전에 이 기술 보고서를 더 자세한 내용으로 업데이트할 예정)에 대해 논의합니다. 마지막으로, 이 논문은 Gemini의 광범위한 의미, 한계 및 잠재적 응용 분야를 탐구하여 AI 연구 및 혁신의 새로운 시대를 예고합니다.

2 모델 아키텍처

Gemini 모델의 아키텍처는 Transformer 디코더(Decoder)를 기반으로 하며, 아키텍처 개선 및 모델 최적화를 통해 대규모로 안정적으로 학습하고 Google 텐서 처리 장치에서 추론 성능을 최적화할 수 있습니다. 이러한 모델은 최대 32k의 컨텍스트 길이를 처리할 수 있으며 다중 쿼리 주의(https://arxiv.org/abs/1911.02150 )와 같은 효율적인 주의 메커니즘을 사용할 수 있습니다. 표 1에서 볼 수 있듯이 Gemini 1.0의 첫 번째 버전에는 다양한 애플리케이션 시나리오에 적응할 수 있는 서로 다른 크기의 세 가지 모델이 포함되어 있습니다.

Gemini 모델은 자연 이미지, 다이어그램, 스크린샷, PDF 및 비디오와 같은 다양한 오디오 및 시각적 입력이 인터리브된 텍스트 입력을 처리하도록 훈련되었으며 텍스트와 이미지 출력을 모두 생성할 수 있습니다(그림 2 참조).

시각적 인코딩은 이전 Flamingo, CoCa 및 PaLI 프로젝트에서 영감을 얻었으며 독특합니다. 모델 자체는 다중 모드이며 개별 이미지 토큰을 사용하여 이미지를 직접 출력할 수 있습니다. 또한 Gemini는 비디오를 일련의 프레임으로 인코딩하고 다양한 입력 해상도를 처리할 수 있습니다. 또한 16kHz 오디오 신호(USM 모델이 추출기 역할을 함)를 직접 처리할 수 있어 오디오 이해의 세부 캡처 기능이 향상됩니다. 이러한 기능을 통해 Gemini는 매우 유연하고 다재다능한 AI 모델이 되었습니다.

3 훈련 인프라

다양한 크기와 구성의 Gemini 모델의 경우 저자는 훈련 하드웨어로 TPUv5e 또는 TPUv4를 선택했습니다. 특히 대규모 Gemini Ultra 모델의 경우 저자는 여러 데이터 센터에서 대규모의 TPUv4 가속기를 사용했는데, 이는 규모 면에서 이전 PaLM-2 모델을 능가했습니다. 그러나 이 규모로 확장하면 특히 하드웨어 오류율 측면에서 새로운 과제도 발생합니다. 계획된 일정 변경 및 선점을 줄이려는 저자의 노력에도 불구하고 대규모 하드웨어 가속기의 기계 오류는 여전히 우주선과 같은 외부 요인으로 인해 흔히 발생하는 현상입니다.

TPUv4 가속기는 4,096개의 칩이 포함된 "SuperPod"에 배포되며, 각 칩은 칩 큐브를 3D 토러스 토폴로지로 신속하게 재구성할 수 있는 광 스위치에 연결됩니다. 또한 Gemini Ultra 프로젝트의 경우 작성자는 핫 스페어 및 롤링 유지 관리를 위해 의도적으로 각 SuperPod에 소수의 큐브를 유지했습니다.

(Gemini Ultra의 네트워크 통신 전략) Gemini Ultra의 대규모 데이터 및 컴퓨팅 요구를 처리하기 위해 저자는 Google의 고급 네트워크 기술을 채택하여 여러 데이터 센터의 SuperPod를 연결했습니다. 이 네트워크 구성은 고속 칩 간 통신을 지원할 뿐만 아니라 SuperPod 내 모델 병렬성을 활용하고 SuperPod 간의 데이터 병렬성을 달성하는 동기식 훈련 패러다임도 수용합니다. Google 네트워크의 짧은 지연 시간과 높은 대역폭 특성은 이러한 효율적인 통신을 달성하는 데 핵심입니다.

Jax와 Pathways는 개발자가 단일 Python 프로세스를 통해 전체 교육 프로세스를 관리할 수 있도록 하는 "단일 컨트롤러" 프로그래밍 모델을 채택하여 AI 개발 프로세스를 크게 단순화합니다. 또한 XLA 컴파일러의 GSPMD 파티셔너와 MegaScale XLA 컴파일러의 애플리케이션도 언급되어 있습니다. GSPMD 파티셔너는 교육 프로세스 중에 컴퓨팅 작업을 분할하는 역할을 담당하는 반면 MegaScale XLA 컴파일러는 클러스터 작업과 컴퓨팅 프로세스 간의 높은 수준의 중첩을 보장하고 교육 단계 시간의 변동을 줄입니다.

기존의 주기적 가중치 체크포인트 저장 방법은 대규모 훈련 환경에서 비효율적입니다. 이 문제를 해결하기 위해 Gemini 프로젝트는 모델 상태의 중복된 메모리 내 복사본을 사용하여 하드웨어 오류가 발생할 경우 신속하게 복구할 수 있도록 합니다. 이전 PaLM 및 PaLM-2 프로젝트에 비해 Gemini는 더 큰 훈련 리소스를 사용하지만 복구 시간이 크게 단축되어 궁극적으로 가장 큰 훈련 작업의 전체 처리량이 85%에서 97%로 증가합니다.

Gemini 프로젝트의 대규모 교육에서 발생하는 새로운 시스템 오류 모드: "자동 데이터 손상(SDC)".

(SDC는 일반적으로 1+1=3을 잘못 계산하는 등의 계산 오류를 일으키는 하드웨어의 작은 전류 변동으로 인해 발생합니다. 칩이 고급화되고 소형화됨에 따라 이 문제는 더욱 두드러집니다. 대부분은 제조 결함으로 인해 발생하지만 오류는 선별됩니다. 그러나 일부 오류는 하드웨어 오류 감지 시스템에서 발견되지 않을 수 있으므로 이러한 문제를 예방하고 해결하려면 감지 소프트웨어에 의존해야 합니다.)

SDC 이벤트는 매우 드물지만 프로젝트 규모가 크기 때문에 이러한 이벤트가 교육에 미치는 영향이 빈번해집니다. 이러한 문제를 해결하기 위해 Project Gemini는 결정론적 재생 기술을 활용하여 잘못된 계산을 격리하고 유휴 및 상시 대기 시스템에 활성 SDC 스캐너를 배포하는 등 다양한 신기술을 사용합니다. 완전히 결정적인 인프라와 결합된 이러한 조치를 통해 팀은 개발 중에 근본 원인을 신속하게 식별하고 해결하여 교육 안정성을 보장할 수 있습니다.


4 훈련 데이터

Gemini 모델의 훈련 데이터 세트는 웹 페이지, 책, 프로그래밍 코드의 이미지, 오디오, 비디오와 같은 여러 데이터 유형을 포함하는 다중 모드 및 다국어입니다. 훈련 과정에서 SentencePiece 단어 분할기는 대량의 훈련 코퍼스를 처리하는 데 사용되며, 이는 어휘 품질을 효과적으로 향상시켜 모델 성능을 향상시킵니다. Gemini 모델은 비라틴어 텍스트를 처리할 때 효율적인 단어 분할 기능을 보여줍니다. 이는 모델의 품질을 향상시킬 뿐만 아니라 학습 및 추론 속도도 향상시킵니다. 동시에 모델의 규모에 따라 더 나은 성능 최적화를 달성하기 위해 다양한 레이블 번호 교육 전략이 채택됩니다.

구체적으로 가장 큰 모델은 다음과 같습니다.https://arxiv.org/abs/2203.15556

다른 소형 모델은 다음과 같습니다. LlaMa

고성능 AI 모델 훈련 시 데이터 세트 품질 관리 및 훈련 전략: 먼저, 모든 데이터 세트는 휴리스틱 규칙 및 모델 기반 분류기 적용을 포함한 품질 필터링과 유해 콘텐츠를 제외하기 위한 보안 필터링을 거칩니다. 평가 세트는 훈련 코퍼스에서 신중하게 선택됩니다. 연구팀은 소형 모델에 대한 절제 실험을 통해 데이터 혼합 및 가중치 부여를 위한 최종 솔루션을 결정했습니다. 학습 과정 중, 특히 후기 단계에서 도메인 관련 데이터의 가중치를 점차적으로 늘리는 것이 학습 전략의 일부입니다. 데이터 품질은 고성능 모델을 구축하는 데 매우 중요하며(중요하기 때문에 상세하지 않음), 사전 훈련을 위한 최적의 데이터 세트 분포를 결정하는 데 탐색할 가치가 있는 많은 문제가 있음을 인식합니다(중요하기 때문에 상세하지 않음).


5 평가

Gemini 모델은 여러 양식에 대한 공동 훈련으로 인해 중요한 다중 모드 특성을 가지고 있습니다. 이 모델은 단일 양식에 특별히 최적화된 모델 및 방법을 능가하는 평가를 통해 텍스트, 이미지, 오디오 및 비디오와 같은 여러 영역에서 강력한 기능을 입증했습니다.

5.1 텍스트

5.1.1 학문 분야의 벤치마킹

텍스트 영역의 학문적 벤치마크에서 Gemini Pro 및 Ultra 모델을 PaLM 2를 포함한 다른 대규모 언어 모델과 비교했습니다. 이 시험에서는 추론, 독해, STEM 및 프로그래밍을 다룹니다. 표 2의 결과에서 볼 수 있듯이 Gemini Pro는 GPT-3.5와 같은 추론 최적화 기능을 갖춘 모델보다 성능이 뛰어나며 시중에서 가장 발전된 일부 모델(GPT-4)과 경쟁합니다.

Gemini Ultra는 종합 검사 벤치마크인 MMLU에서 90.04%의 정확도로 탁월한 성능을 발휘하여 기존 모든 모델과 인간 전문가의 성능(89.8%)을 능가했습니다. MMLU 테스트는 57개 주제 영역을 다루며 참가자의 지식 수준에 대한 포괄적인 평가를 제공합니다. Gemini Ultra의 높은 성능은 다양한 주제 영역에 대한 전문 지식은 물론 뛰어난 독해력과 추론 능력을 반영합니다. 또한, 연구에 따르면 Gemini Ultra가 모델 불확실성에 기반한 사고 체인 프롬프트 방법과 결합되면 더 높은 정확도를 달성할 수 있는 것으로 나타났습니다. 이 방법은 여러 샘플을 생성하고 합의 또는 최대 가능성을 기반으로 답변을 선택하는 사고 체인에 의존합니다.

수학 분야에서 Gemini Ultra의 성과는 강력한 분석 및 문제 해결 능력을 입증합니다. GSM8K 초등학교 수학 벤치마크 테스트에서 Gemini Ultra는 사고 사슬 프롬프트와 자기 일관성 전략을 사용하여 이전 점수를 능가하는 94.4%의 정확도를 달성했습니다. MATH 벤치마크 테스트에서 Gemini Ultra는 중급 및 고급 수학 대회의 복잡한 문제에 직면했을 때 53.2%의 정확도로 똑같이 좋은 성적을 거두었습니다. 또한 미국 수학 대회의 어려운 과제에서 Gemini Ultra는 문제의 32%를 해결했으며 GPT-4보다 더 나은 성능을 보였습니다. 이러한 결과는 소형 모델이 이러한 어려운 작업에 거의 무능하지만 Gemini Ultra는 고급 기술과 전략을 통해 이러한 과제를 성공적으로 해결한다는 것을 보여줍니다.

Gemini Ultra는 대규모 언어 모델 프로그래밍의 주요 응용 분야에서 탁월합니다. 이 모델은 다양한 기존 및 내부 벤치마크에서 좋은 성능을 발휘하며 AlphaCode 2와 같은 보다 복잡한 추론 시스템에서도 강력한 기능을 입증했습니다. 특히 코드 완성 벤치마크 테스트인 HumanEval에서 Gemini Ultra는 기능 설명에 따라 74.4%의 Python 코드를 올바르게 구현할 수 있었습니다. 또한, 새로운 Python 코드 생성 작업 평가 벤치마크 Natural2Code에서 Gemini Ultra는 네트워크 누출 없음을 보장하면서 최고 점수인 74.9%의 높은 점수를 달성했습니다.

Gemini 모델을 벤치마킹하고 평가할 때 데이터 오염 문제에 직면하게 됩니다. 결과의 과학성과 신뢰성을 확보하기 위해 유출된 데이터에 대한 광범위한 분석을 실시했으며 특정 테스트(예: LAMBADA)의 결과를 보고하지 않기로 결정했습니다. 특히 HellaSwag 테스트 평가에서는 Gemini 모델의 추가적인 미세 조정으로 검증 정확도가 크게 향상되어 GPT-4보다 좋은 성능을 보여주었습니다. 이는 벤치마크 결과가 사전 훈련 데이터 세트의 구성에 영향을 받을 수 있음을 나타냅니다. 따라서 우리는 보다 엄격한 평가 환경에서 오염 제거된 HellaSwag 결과를 보고하기로 결정했습니다. 또한 평가의 견고성과 정확성을 보장하기 위해 Gemini 모델은 WMT23, Math-AMC 2022-2023 문제 및 네트워크가 아닌 소스에서 생성된 Natural2Code와 같이 새로 출시된 여러 평가 데이터 세트에서 테스트되었습니다.

벤치마크에서 Gemini Ultra의 성능은 모델의 잠재적인 기능을 보여줄 뿐만 아니라 실제 작업에 미칠 수 있는 긍정적인 영향도 보여줍니다. 이러한 성과는 특히 추론 및 STEM 분야에서 두드러지며, 교육 분야에서 대규모 언어 모델의 적용 및 개발에 대한 새로운 방향을 제시합니다. 복잡한 수학 및 과학 개념을 처리하는 Gemini Ultra의 능력은 특히 매력적이며 개인화된 학습 및 지능형 개인교습 시스템에 대한 새롭고 흥미로운 응용 가능성을 제시합니다.

5.1.2 역량 동향

팀은 Gemini 모델 계열의 기능 추세를 분석했으며, 주로 50개 이상의 다양한 벤치마크 테스트에 대한 종합적인 평가를 통해 6가지 기능의 성능을 연구했습니다(그림 3). 이러한 능력에는 사실성, 긴 텍스트 이해, 수학/과학, 추론 및 다중 언어 사용이 포함됩니다. 이 중 제미니 울트라(Gemini Ultra)는 6가지 기능 모두에서 가장 좋은 성능을 보였으며, 2위 모델인 제미니 프로(Gemini Pro) 역시 강력한 경쟁력과 높은 효율성을 보여줬다. 전반적으로 모델 크기가 증가함에 따라 여러 도메인에서 성능이 크게 향상됩니다.

5.1.3. 나노

팀은 기기 내 배포용으로 설계된 Gemini Nano 1 및 Nano 2 모델을 특별히 제작하여 인공 지능을 사용자에게 더 가까이 제공합니다. 특히 요약과 독해 작업에 능숙하며 각 작업에 맞게 세심하게 조정됩니다. 그림 3과 표 3의 데이터를 비교하면 Nano 모델의 크기(1억 8천만 및 3억 2,500만 매개변수)가 Gemini Pro 모델에 비해 훨씬 작지만 사실성, 추론, STEM, 프로그래밍, 다중 모드 및 다중 모드 등 언어 작업에서는 여전히 강력한 성능을 보여줍니다. 이러한 모델의 출시로 더 많은 플랫폼과 장치에서 고급 인공 지능 기능에 액세스할 수 있게 되어 인공 지능 기술을 대중에게 더욱 광범위하게 사용할 수 있게 되었습니다.

5.1.4 다국어

이 장에서는 주로 Gemini 모델의 다중 언어 처리 능력 평가를 소개합니다. 평가 작업에는 기계 번역, 텍스트 요약, 언어 간 텍스트 생성 등 다양한 유형이 포함됩니다. 구체적으로, 기계 번역 평가는 리소스가 풍부한 언어부터 리소스가 부족한 언어까지 다양한 언어를 다루는 반면, 텍스트 요약 및 벤치마크 번역은 여러 언어에 걸쳐 있어 다양한 유형의 다국어 작업을 처리하는 모델의 능력과 유연성을 보여줍니다.

기계 번역. Gemini Ultra는 다양한 리소스 수준에 걸친 언어 번역 작업, 특히 영어를 다른 언어로 번역하는 데 탁월하며 기존의 대규모 언어 모델 접근 방식을 능가합니다. 표 4에서 볼 수 있듯이 WMT 23 번역 벤치마크에서 Gemini Ultra는 영어 이외의 번역 작업에서 가장 높은 LLM 기반 번역 품질을 달성했으며 평균 BLEURT 점수는 GPT-4 및 PaLM 2를 초과했습니다. 또한 Gemini Ultra는 Tamazigh 및 Quechua와 같이 덜 사용되는 일부 언어를 포함하여 리소스가 매우 적은 언어에 대한 번역으로 평가되었습니다.

다중 언어 환경에서의 수학적 문제 해결 및 텍스트 요약. 표 5는 PaLM 2-L을 능가하는 79.0%의 정확도로 MGSM(수학 벤치마크의 번역 버전)에서 Gemini Ultra의 성능을 구체적으로 지적합니다. 또한 다국어 요약 측면에서 Gemini Ultra는 XLSum 벤치마크에서 PaLM 2보다 성능이 뛰어나지만 WikiLingua 테스트에서는 성능이 약간 낮습니다. 전반적으로 Gemini 모델은 특히 자원이 적은 언어와 지역에서 다중 언어 작업을 처리하는 광범위한 기능을 보여줍니다.

5.1.5 긴 텍스트

이 모델은 최대 32,768 단어의 시퀀스 길이를 효과적으로 처리할 수 있으며, 전체 컨텍스트 길이에 걸쳐 쿼리할 때 Ultra 모델이 98%의 정확도를 입증한 합성 검색 테스트를 통해 효율성이 검증되었습니다. 또한 그림 4에서 볼 수 있듯이 NLL(Negative Log Likelihood) 분석에서는 시퀀스 위치가 증가함에 따라 32K 컨텍스트 길이 내에서 NLL이 점차 감소하는 것으로 나타나 긴 문서를 처리하는 데 모델이 더 우수함을 나타냅니다. 이 긴 컨텍스트 처리 기능은 문서 검색 및 비디오 이해와 같은 새로운 분야에 Gemini 모델을 적용할 수 있는 가능성을 제공합니다.

5.1.6 인간 선호도 평가

모델 출력에 대한 인간 선호도 평가는 자동화된 평가를 보완하는 중요한 품질 지표입니다. 저자는 동일한 신호에 대한 두 모델의 반응을 비교하는 블라인드 테스트 방법을 통해 Gemini 모델을 평가했습니다. 지침 조정 기술을 통해 사전 훈련된 모델을 개선하는 데 중점을 두고 있으며, 이러한 개선은 지침 따르기, 창의적인 글쓰기, 다중 모드 이해 등과 같은 다양한 특정 능력에 대해 평가됩니다. Gemini Pro 모델은 여러 측면, 특히 보안과 사용자 경험에서 상당한 개선을 보여줍니다. 표 6의 결과에서 볼 수 있듯이 명령어 튜닝을 통해 모델의 실용성과 보안성이 크게 향상될 수 있습니다.

5.1.7 복잡한 추론 시스템

Gemini는 검색 및 도구 사용과 같은 추가 기술과 결합되어 보다 복잡한 다단계 문제를 해결할 수 있는 강력한 추론 시스템을 만들 수 있습니다. 한 가지 예는 경쟁적인 프로그래밍 문제를 해결하는 데 탁월한 새로운 최첨단 에이전트인 AlphaCode 2입니다. AlphaCode 2는 광범위한 프로그램 검색을 위해 특별히 조정된 Gemini Pro를 사용하고 필터링, 클러스터링 및 순위 재지정 메커니즘을 결합하여 문제 해결 효율성을 향상시킵니다. AlphaCode 2는 AlphaCode와 동일한 플랫폼인 Codeforces 플랫폼(https://codeforces.com/)에서 평가되며 레벨 1과 2의 12개 게임, 총 77개의 질문이 포함되어 있습니다. AlphaCode 2는 이러한 경쟁 문제의 43%를 해결했으며, 이는 문제의 25%를 해결한 이전 기록적인 AlphaCode 시스템에 비해 1.7배 향상된 성능입니다. 경쟁 순위에서 Gemini Pro 기반 AlphaCode 2는 평균적으로 참가자의 약 85% 이상을 차지했습니다. 이는 AlphaCode 참가자의 50%가 조금 넘는 것에 비해 상당한 개선입니다. 사전 훈련된 강력한 모델을 검색 및 추론 메커니즘과 결합하는 것은 보다 일반적인 에이전트를 향한 흥미로운 방향입니다. 또 다른 핵심 요소는 다중 모드에 대한 깊은 이해입니다.

5.2 다중양식

Gemini 모델은 본질적으로 다중 모드이며 테이블, 차트 등에서 정보 및 공간 레이아웃 추출과 같은 다양한 양식의 기능을 원활하게 결합할 수 있으며 특히 수학과 프로그래밍 분야에서 강력한 언어 모델 추론 기능을 갖추고 있습니다. 또한 이 모델은 세부 정보를 식별하고 시간과 공간에 걸쳐 컨텍스트를 집계하는 데 탁월하며 비디오 프레임 및 오디오 입력의 시간 상관 시퀀스를 처리할 수 있습니다. 또한 본문에는 후속 섹션에서 이미지, 비디오, 오디오 등 다양한 양식에 대한 모델 성능을 자세히 평가하고 이미지 생성 및 교차 모드 정보 조합 기능을 시연할 것이라고 언급되어 있습니다.

5.2.1 이미지 이해

자막이나 질문 및 답변 작업(예: VQAV2)을 사용한 고급 객체 인식, 세부 정보를 식별하기 위한 TextVQA 및 DocVQA와 같은 작업을 통한 정밀 전사, ChartQA 및 InfographicVQA 작업을 사용한 차트 이해 등 4가지 핵심 기능에 대한 모델 성능을 평가했습니다. Ai2D, MathVista 및 MMMU와 같은 작업을 사용한 다중 모드 추론뿐만 아니라 입력 레이아웃에 대한 공간적 이해를 갖는 모델입니다. 제로샷 질의응답 평가에서는 모델이 특정 벤치마크와 일치하는 짧은 답변을 제공해야 합니다. 모든 결과는 탐욕스러운 샘플링을 통해 얻어지며 외부 OCR 도구는 사용되지 않습니다.

표 7에서 볼 수 있듯이 Gemini Ultra는 자연 이미지 및 스캔 문서에 대한 질문에 답하고 인포그래픽, 차트 및 과학 일러스트레이션을 이해하는 등 다양한 작업에서 강력한 성능을 보여줍니다. 또한 MathVista 및 InfographicVQA 벤치마크 성능과 같은 학술 벤치마크에서도 상당한 개선을 달성했습니다.

MMMU는 새롭게 출시된 평가 벤치마크로, 6개 과목의 이미지 질문이 포함되어 있으며 각 과목에는 여러 주제가 포함되어 있으며 이러한 질문에 답하려면 대학 수준의 지식이 필요합니다. Gemini Ultra는 이번 벤치마크에서 최고 점수를 달성했을 뿐만 아니라 6개 과목 중 5개 과목에서 이전 최고 점수를 넘어 5% 포인트 이상 향상되어 다중 모드 추론 능력을 충분히 입증했습니다.

Gemini 모델은 여러 양식을 확장할 수 있을 뿐만 아니라 여러 글로벌 언어를 동시에 처리할 수 있으며 이미지 이해(예: 아이슬란드어 텍스트가 포함된 이미지 구문 분석) 및 생성 작업(예: 여러 언어에 대한 이미지 설명 생성)을 포함한 작업에 적합합니다. ). 표 9에서 볼 수 있듯이 Crossmodal3600(XM-3600) 벤치마크의 하위 집합을 평가한 결과 Gemini 모델은 4장 설정, 특히 이미지 설명 생성에서 탁월한 성능을 보여주었습니다. 이 평가에는 Flamingo 평가 프로토콜이 사용되었으며 모든 모델이 미세 조정되지 않았습니다. 결과는 Gemini 모델이 이미지 설명 생성에서 이전 최고의 모델인 Google PaLI-X에 비해 크게 향상된 것을 보여줍니다.

그림 5의 정성적 평가는 Gemini Ultra의 다중 모달 추론 기능의 예를 보여줍니다. 특히 Gemini Ultra는 사용자가 제공한 차트를 이해하고, 해당 차트를 생성하는 데 필요한 코드를 추론하고, 사용자 지침에 따라 하위 그래프 위치를 조정하고, 최종 차트 출력에 대한 추상적 추론을 수행할 수 있습니다. 이 프로세스에는 이미지와 텍스트의 포괄적인 처리 기능이 포함됩니다.

5.2.2 영상 이해

비디오 입력을 이해하는 것은 유용한 일반 지능형 에이전트를 구축하기 위한 중요한 단계입니다. 각 비디오 작업에 대해 팀은 각 비디오 클립에서 동일한 간격의 프레임 16개를 샘플링하여 Gemini 모델에 제공했습니다. YouTube 동영상 데이터 세트(NextQA 및 Perception 테스트 제외 모두)의 경우 팀은 2023년 11월에도 여전히 공개적으로 제공되는 동영상에서 Gemini 모델을 평가했습니다. 표 10과 같이 다양한 퓨샷 비디오 자막 작업과 제로샷 비디오 질의응답 작업에서 최신 결과를 달성했습니다.

5.2.3 이미지 생성

Gemini는 자연어로 된 중간 설명에 의존하지 않고 이미지를 직접 출력할 수 있습니다. 이 기능은 이미지-텍스트 인터리브 시퀀스 생성과 같이 샘플 수가 적은 설정에서 특히 유용합니다. 예를 들어 그림 6에서 볼 수 있듯이 Gemini는 파란색과 노란색 실, 파란색 고양이 또는 노란색 귀를 가진 파란색 개와 같은 사용자의 색상 및 소재 제안을 기반으로 창의적인 이미지를 디자인할 수 있습니다. 분홍색과 녹색과 같은 새로운 색상 조합이 제시되면 쌍둥이자리는 녹색 아보카도나 분홍색 귀의 녹색 토끼와 같은 새로운 아이디어를 제안할 수 있습니다.

5.2.4 오디오 이해

Gemini Nano-1 및 Gemini Pro 모델은 자동 음성 인식 및 음성 번역 작업을 포함한 여러 공개 벤치마크에서 평가되었으며 다른 주요 음성 모델과 비교되었습니다. 표 11은 Gemini Pro가 모든 테스트에서 USM 및 Whisper 모델보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다. 특히 FLEURS 테스트에서는 Gemini 모델도 FLEURS 훈련 데이터를 사용하기 때문에 성능이 특히 뛰어납니다. Gemini Nano-1은 또한 FLEURS를 제외한 모든 테스트에서 다른 모델보다 성능이 뛰어났습니다. 그러나 아직 Gemini Ultra를 평가하지 않았습니다.

음악1:https://storage.googleapis.com/deepmind-media/gemini/fleurs1.wav

음악2:https://storage.googleapis.com/deepmind-media/gemini/fleurs2.wav

5.2.5 모달 조합

다중 모드 프레젠테이션에는 텍스트와 단일 형식(일반적으로 이미지)이 얽혀 있는 조합이 포함되는 경우가 많습니다. 예를 들어, 표 13에서는 오믈렛 만들기를 예로 들어 오디오 및 이미지 시퀀스를 처리하는 모델의 능력을 보여줍니다. 이 예에서 모델은 일련의 그림과 구두 질문을 통해 단계별로 상호 작용하여 오믈렛 요리 과정을 안내합니다. 모델은 텍스트 명령에 정확하게 응답할 수 있을 뿐만 아니라 이미지의 세부 정보를 처리하여 오믈렛이 어떻게 요리되었는지 평가할 수도 있습니다.

6 책임 있는 배포

Gemini 모델을 개발할 때 팀은 Google의 AI 기술 초기 릴리스에 맞춰 모델이 미칠 수 있는 예측 가능한 사회적 영향을 식별, 측정, 관리하기 위해 책임감 있는 배포에 대한 구조화된 접근 방식을 따랐습니다.

6.1 영향평가

영향 평가는 모델 개발과 관련된 사회적 이익과 피해를 식별, 평가 및 문서화하는 것을 목표로 합니다. 평가는 이전 학술 문헌, 업계에서의 유사한 작업, 전문가와의 상호 작용, 새 모델의 취약점 탐색을 통해 정보를 얻었습니다. 우려되는 영역에는 사실성, 아동 안전, 유해 콘텐츠, 온라인 안전, 생물학적 위험, 표현 및 포용성이 포함됩니다. 이러한 평가는 모델이 개발됨에 따라 업데이트되며 완화, 제품 제공 및 배포 결정을 안내하는 데 사용됩니다. Gemini 모델의 영향 평가에는 이러한 기능과 Google AI 원칙의 잠재적 연관성을 평가하는 것도 포함됩니다.

6.2 모델 정책

알려진 효과와 예상되는 효과에 대한 이해를 바탕으로 팀에서 개발한 일련의 "모델 정책"입니다. 이러한 정책은 모델 개발 및 평가를 위한 지침 역할을 하고, 책임 있는 개발을 위한 표준화된 지침과 우선 순위 프레임워크를 정의하고, 모델의 실제 출시 준비 상태를 평가하기 위한 지표로 사용됩니다. Gemini 모델 정책은 아동 안전, 증오심 표현, 사실적 정확성, 형평성과 포용성, 괴롭힘 등 중요한 영역을 다룹니다.

6.3 평가

영향 평가에서 식별된 정책 영역 및 기타 주요 위험 영역에 대한 Gemini 모델의 준수 여부를 평가하기 위해 팀은 모델 개발 수명 주기 전반에 걸쳐 평가 방법론을 개발했습니다.

평가는 개발 평가, 보증 평가, 외부 평가의 세 부분으로 나누어집니다.

이 평가는 Gemini 모델을 훈련하고 미세 조정하는 과정에서 "단계별 개선"을 제공하기 위해 개발되었습니다. Gemini 팀이 설계했거나 외부 학술 벤치마크를 기준으로 설계한 이러한 평가는 유용성(지침 및 창의성 준수), 안전성 및 사실성과 같은 문제를 고려합니다.

보증 평가는 일반적으로 주요 마일스톤이 끝날 때 독립 그룹에 의해 수행되는 거버넌스 및 검토에 중점을 둡니다.

외부 평가는 사각지대를 식별하고 모델에 대한 스트레스 테스트를 수행하기 위해 Google 외부 파트너가 수행합니다. 또한, 전문화된 사내 팀이 레드팀 작업을 수행하여 새로운 취약점을 식별하고 이를 활용하여 평가 방법을 개선합니다. 이러한 평가는 안전성, 사실성, 유용성을 포함한 다양한 영역에 걸쳐 이루어집니다.

6.4 완화 조치

위에서 설명한 평가, 정책 및 평가 방법의 결과에 따라 팀은 완화 조치를 개발했습니다. 평가 및 완화는 반복적인 방식으로 사용됩니다. 즉, 완화 노력이 구현된 후에 재평가가 수행됩니다.

6.4.1 데이터

교육에 앞서 팀은 데이터 큐레이션 및 데이터 수집 단계에서 잠재적인 다운스트림 피해를 완화하기 위해 여러 단계를 수행했습니다. "훈련 데이터" 섹션에서 설명한 대로 훈련 데이터는 고위험 콘텐츠를 제외하고 모든 훈련 데이터의 품질이 충분히 높은지 확인하기 위해 필터링됩니다.

필터링 외에도 데이터 수집 단계에서는 AI를 기반으로 하는 Google DeepMind의 데이터 강화 모범 사례(https://deepmind.google/discover/blog/best-practices-for-data-enrichment/)를 따릅니다. ​파트너십 관련 안내입니다. 여기에는 데이터 강화 작업을 수행하는 사람들이 최소한 현지 생활 임금에 상응하는 금액을 지급받도록 보장하는 것이 포함됩니다.

6.4.2 명령어 튜닝

명령어 조정에는 텍스트 및 다중 모드 환경에서 사용되는 SFT(감독 미세 조정) 및 RLHF(인간 피드백을 통한 강화 학습)가 포함됩니다. 지침 조정에서는 유용성 향상과 모델 피해 감소의 균형을 맞추는 데 중점을 둡니다. 특히 대규모 모델의 경우 데이터의 품질이 수량보다 더 중요하게 간주됩니다.

마찬가지로, 보상 모델 훈련의 경우 팀은 모델이 보안상의 이유로 "이 문제를 도울 수 없습니다"를 선택한 경우와 모델이 유용한 응답을 제공한 경우를 포함하여 데이터 세트의 균형을 맞추는 것이 중요하다는 것을 알았습니다. 또한 다중 헤드 보상 모델을 훈련하기 위해 유용성, 사실성 및 안전성에 대한 보상 점수를 결합하는 다중 목표 최적화가 사용됩니다.

유해한 텍스트 생성 위험을 줄이기 위해 팀은 광범위한 사용 사례를 포괄하는 약 20가지 유형의 피해(예: 증오심 표현, 의학적 조언 제공, 위험한 행동 권장)를 나열했습니다. 팀은 정책 전문가와 기계 학습 엔지니어가 수동으로 편집하거나 주제 키워드로 강력한 언어 모델을 시딩하여 이러한 범주에서 피해를 유발할 수 있는 쿼리 데이터 세트를 생성했습니다.

감지된 위험 영역에서 팀은 원하는 대응을 보여주기 위해 추가 감독 미세 조정 데이터를 생성했습니다. 이러한 응답을 대규모로 생성하기 위해 팀은 Constitution AI(https://arxiv.org/abs/2212.08073)에서 영감을 받은 맞춤 데이터 생성 레시피에 크게 의존합니다. 여기서 팀은 Google의 콘텐츠 정책 언어를 'Constitution'으로 삽입합니다. 그리고 언어 모델(https://arxiv.org/abs/2205.11916)의 강력한 제로샷 추론 기능을 사용하여 응답을 수정하고 여러 응답 후보 중에서 선택합니다.

팀은 이 레시피가 효과적이라는 것을 확인했습니다. 예를 들어 Gemini Pro에서는 이 전체 레시피가 응답의 유용성을 크게 줄이지 않고 식별된 텍스트 손상의 대부분의 사례를 완화할 수 있었습니다.

6.4.3 사실성

잘못된 정보(환상)의 빈도를 줄이면서 모델이 다양한 시나리오에서 사실적 응답을 생성하는지 확인하는 것이 중요합니다. 팀은 실제 세계에서 원하는 세 가지 주요 동작을 반영하도록 지시문을 조정하는 데 중점을 두고 있습니다.

  • 속성: 주어진 맥락을 전적으로 기반으로 응답을 생성하라는 지시를 받으면 Gemini는 맥락에 가장 충실한 응답을 생성해야 합니다. 여기에는 사용자가 제공한 소스 요약, 질문 및 제공된 스니펫을 기반으로 미묘한 인용 생성, 긴 형식의 소스 자료(예: 책)를 기반으로 한 질문에 답변, 주어진 소스를 원하는 출력으로 변환(예: 회의록 일부를 기반으로)이 포함됩니다. 생성된 이메일).
  • 비공개 응답 생성: Gemini는 제공된 출처가 없는 사실 문의에 직면할 때 잘못된 정보를 생성해서는 안 됩니다. 이러한 프롬프트는 정보를 찾는 질문(예: "인도 총리는 누구입니까?")부터 사실 정보를 묻는 반창의적인 프롬프트(예: "재생 에너지 채택을 지지하는 500 단어 연설 작성")까지 다양합니다. ").
  • 회피: 쌍둥이자리는 "대답할 수 없는" 입력에 직면했을 때 환각을 나타내서는 안 됩니다. 대신, 회피를 통한 대응을 제공할 수 없다는 점을 인정해야 합니다. 여기에는 잘못된 전제가 포함된 질문에 대한 입력 프롬프트뿐만 아니라 모델이 오픈북 질문 답변을 수행하도록 지시되었지만 주어진 컨텍스트에서 답변을 도출할 수 없는 상황도 포함됩니다.

실험은 세 가지 주요 부분으로 구성됩니다.

  • 인간 주석자가 비공개 질문의 사실성을 평가하는 사실성 세트(Factuality)
  • 속성 세트(Attribution)는 프롬프트의 소스에 대한 모델의 속성 정확도를 평가합니다.
  • 헤징은 불확실성에 직면한 모델의 회피 동작을 자동으로 평가합니다. 이러한 실험은 모델의 사실성과 정확성을 향상시키기 위해 설계되었습니다.

표 14는 지침 튜닝은 있지만 사실 중심 튜닝이 없는 Gemini Pro 모델 버전과 Gemini Pro를 비교합니다. 주요 결과는 다음과 같습니다: (1) 사실 세트의 부정확률이 절반으로 감소했습니다. (2) 귀인 세트의 귀인 정확도가 50% 증가했습니다. (3) 회피 세트 작업에서 성공적인 회피에 대한 모델의 비율이 증가했습니다. 0%에서 70%로 증가했습니다. 이러한 결과는 사실에 초점을 맞춘 조정이 모델 정확도와 적응성을 크게 향상시킨다는 것을 보여줍니다.

6.5 배포

검토를 완료한 후, 검토를 통과한 각 Gemini 모델에 대해 모델 카드를 만듭니다. 이러한 모델 카드는 내부 문서에 구조와 일관성을 제공하고, 주요 성과 및 책임 지표를 문서화하며, 시간이 지남에 따라 이러한 지표에 대한 외부 커뮤니케이션을 적절하게 알립니다.

6.6 책임 있는 거버넌스

Project Gemini는 Google DeepMind의 책임 및 안전 위원회(RSC)의 지도에 따라 윤리 및 안전 검토를 거쳤습니다. RSC는 프로젝트, 논문, 공동작업이 Google의 AI 원칙을 준수하도록 하는 임무를 맡은 학제간 팀입니다. RSC는 프로젝트의 영향 평가, 정책, 평가 및 완화 전략에 대한 피드백과 권장 사항을 제공했습니다. Gemini 프로젝트에서 RSC는 특히 아동 안전을 포함한 주요 정책 분야에 중점을 두고 평가 목표를 설정했습니다.

7 토론 및 결론

Gemini는 텍스트, 코드, 이미지, 오디오 및 비디오와 같은 다중 모드 영역에서 발전을 이루는 새로운 모델 제품군입니다.

Gemini Ultra 모델은 자연어 처리 및 다중 모드 이해 분야에서 새로운 최고 표준을 설정합니다. 자연어 분야에서 Gemini Ultra는 MMLU 시험 벤치마크에서 인간 전문가의 성능을 능가합니다. 다중 모드 분야에서 Gemini Ultra는 이미지, 비디오 및 오디오 이해를 위한 벤치마크 테스트에서도 뛰어난 성능을 달성했습니다. 또한 저자는 복잡한 이미지와 다중 모드 시퀀스를 구문 분석하고 서로 얽힌 텍스트와 이미지 응답을 생성하는 데 있어 Gemini 모델의 새로운 응용 가능성에 대해 흥분을 표현했습니다.

Gemini 모델의 인상적인 성능에도 불구하고 LLM은 인과관계 이해, 논리적 추론, 반사실적 추론과 같은 고급 추론 작업에 여전히 어려움을 겪고 있습니다. 이는 현재의 최첨단 LLM이 많은 벤치마크에서 포화 상태에 있기 때문에 실제 이해를 측정하기 위해 보다 도전적이고 강력한 평가의 필요성을 강조합니다.

Gemini는 지능 문제를 해결하고, 과학을 발전시키며, 인류에게 혜택을 제공하려는 우리 사명의 또 다른 단계입니다. Google과 다른 동료들이 이러한 모델을 어떻게 사용할지 기대됩니다.

미래를 위한 더 넓은 목표: 다양한 양식에 걸쳐 폭넓은 일반화 기능을 갖춘 대규모 모듈식 시스템을 개발하는 것입니다.

8 부록

8.1 MMLU 벤치마크의 사고 체인 비교

팀은 모델이 k개의 사고 체인 샘플을 생성하고, 모델이 특정 임계값 이상으로 확신할 경우 다수 투표가 선택되고, 그렇지 않으면 탐욕스러운 샘플 선택이 선택되는 새로운 방법을 제안했습니다. 이러한 임계값은 검증 세트에 대한 각 모델의 성능을 기반으로 최적화됩니다. 이 방법을 Uncertainty-Routed Chain-of-Thought CoT(불확실성 라우팅 CoT)라고 합니다.

이 접근 방식의 이면에 있는 직관은 모델이 상당히 불일치할 때 사고 연결 샘플이 최대 가능성 의사 결정에 비해 성능을 저하시킬 수 있다는 것입니다. (이 방법의 직관은 다수결을 최대한 많이 꿰매는 것이라고 생각합니다)

Gemini Ultra는 단순히 사고 사슬 샘플을 사용하는 것보다 이 접근 방식을 통해 더 많은 이점을 얻습니다. GPT-4의 성능은 탐욕적 샘플링을 사용한 84.2%에서 32개의 비결정적 경로가 있는 사고 체인 방법을 사용한 87.3%로 향상되었습니다. 그러나 GPT-4의 CoT 점수와 비결정적 라우팅의 CoT 점수가 동일하다는 점은 주목할 가치가 있습니다. 이에 반해 Gemini Ultra의 성능은 탐욕적 샘플링을 사용한 84.0%에서 32개의 불확실성 경로를 사용한 사고 체인 방법을 사용한 90.0%로 크게 향상되었으며, 32개의 사고 체인 샘플만 사용한 경우에는 85.0%로 약간 향상되었습니다.

8.2 기능 및 벤치마크 작업

Gemini 모델을 종합적으로 테스트하기 위해 50개 이상의 벤치마크 작업이 사용되었습니다.

  • 사실(5): BoolQ, NaturalQuestions-Closed, NaturalQuestions-Retrieved, RealtimeQA, TydiQA-noContext 및 TydiQA-goldP.
  • 긴 컨텍스트(6): NarrativeQA, Scrolls-Qasper, Scrolls-Quality, XLsum(영어), XLSum(비영어) 및 기타 내부 벤치마크.
  • 수학/과학(8): GSM8k(CoT 포함), Hendryck의 MATH pass@1, MMLU, Math-StackExchange, Math-AMC 2022-2023 문제 및 3개의 추가 내부 벤치마크.
  • 推리(7만):BigBench Hard(CoT 포함), CLRS, Proof Writer, Reasoning-Fermi 문제, Lambada, HellaSwag, DROP.
  • 초록(5): XL Sum(영어), XL Sum(비영어 언어), WikiLingua(비영어 언어), WikiLingua(영어), XSum.
  • 다국어(10): XLSum(비영어권 언어), WMT22, WMT23, FRMT, WikiLingua(비영어권 언어), TydiQA(문맥 없음), TydiQA(GoldP), MGSM, 번역된 MMLU, NTREX, FLORES-200
  • 이미지 및 비디오(9+6): MMMU, TextVQA, DocVQA, ChartQA, InfographicVQA, MathVista, AI2D, VQAV2, XM3600(다국어 이미지 이해) 및 6가지 비디오 이해 벤치마크: VATEX(두 가지 언어로 된 자막), YouCook2, NextQA, ActivityNet-QA, 인식 테스트 MCQA.
  • 오디오(5): FLEURS, VoxPopuli, 다국어 Librispeech와 같은 자동 음성 인식(ASR) 작업 및 CoVoST 2와 같은 자동 음성 번역 작업.

8.3 정성적 예

다음 예는 모두 Gemini Ultra의 출력에서 ​​나온 것입니다.

8.3.1 차트 이해와 데이터 추론

입력은 차트와 텍스트이고 모델은 지시에 따라 Markdown 형식으로 텍스트를 출력할 수 있음을 알 수 있습니다.

8.3.2 멀티모달 Q&A

이 모델은 이미지에 표시된 특정 식물을 식별하고 관련 정보를 제공할 수 있습니다. 또한 이 모델은 철자 오류에 강하고 철자 오류가 발생하더라도 사용자의 질문을 계속 이해할 수 있습니다.

8.3.3 인터리브된 이미지 및 텍스트 생성

8.3.4 이미지 이해와 추론

모델은 이미지의 모양을 인식하고, 그 속성을 이해하고, 추론을 통해 다음에 나타날 개체를 예측할 수 있습니다.

8.3.5 기하학적 추론

모델은 지침이 약간 불분명한 경우에도 의미 있는 추론 단계를 제공할 수 있습니다.

9.3.6 객체에 대한 정보 검색

모델은 이미지에서 객체를 식별하고 두 객체를 연결하는 공통 특징을 결정할 수 있습니다.

8.3.7 시각적 단서를 기반으로 한 다중 모드 추론

이미지에 약간의 시각적 왜곡이 있는 경우에도 이러한 물체를 식별할 수 있습니다.

8.3.8 다양한 유머 이해

8.3.9 다중 언어 사용의 일반적인 추론

8.3.10 추론과 코드 생성

8.3.11 수학: 미적분학

이 모델은 미적분학 문제를 단계별로 해결하고 LaTeX 방정식을 올바르게 정의하는 동시에 문제 해결 과정에 대한 설명을 제공합니다.

8.3.12 다단계 추론과 수학

모델은 작업 요구 사항을 이해하고 올바른 계산 값으로 마크다운 테이블을 생성합니다. 또한 지침을 명확하게 따르고, 숫자의 출처를 표시하고, 작업에서 묻는 질문에 답합니다.

8.3.13 복잡한 이미지 이해, 코드 생성 및 지시 따르기

Gemini Ultra는 플롯을 생성한 코드를 추론하고 추가 수학적 변환을 수행하고 관련 코드를 생성하기 위해 역 그래픽 작업을 수행해야 합니다.

8.3.14 영상이해와 추론

모델은 비디오에서 일어나는 일을 분석하고 비디오의 동작을 개선할 수 있는 방법에 대한 제안을 제공할 수 있습니다.

9 chatgtp4와의 비교

Gemini 모델은 Google이 전 세계적으로 출시한 최초의 다중 모드 모델로, 클라우드와 엣지에서의 테스트 및 실행을 지원합니다. 관련 테스트 데이터에 따르면 Gemini Ultra는 MMLU(대규모 다중 작업 언어 이해) 측면에서 인간 전문가 모델보다 우수하며, 수평 비교에서는 다중 작업 성능이 GPT-4를 능가합니다.

  • Gemini는 텍스트 및 인코딩을 포함한 다양한 벤치마크에서 최첨단 성능을 달성했습니다.

  • Gemini는 일련의 다중 모드 벤치마크에서 SOTA에 도달했습니다.

다중 양식 측면에서도 Gemini Ultra는 새로운 MMMU 벤치마크에서 59.4%의 SOTA 점수를 달성했습니다. 이 벤치마크는 다양한 도메인에 걸친 다중 모드 작업으로 구성되어 있으며 대규모 모델에 대한 사려 깊은 추론 프로세스가 필요합니다.

Google이 제공한 이미지 벤치마크 결과에 따르면 Gemini Ultra는 OCR 시스템의 도움 없이 이전 최첨단 모델보다 성능이 뛰어납니다.

SOTA: Full State-Of-The-Art는 이 연구 과제에서 해당 분야의 다른 모델과 비교하여 현재 최고/가장 발전된 모델을 나타냅니다.

10 요약

Google Gemini는 딥러닝을 기반으로 한 AI 시스템이지만 다른 AI 시스템과는 매우 다릅니다. Google Gemini는 텍스트, 코드, 이미지를 이해하고 생성할 수 있는 다중 모드 AI 시스템입니다. 즉, 다양한 데이터 유형을 확장하여 보다 복잡한 추론과 생성을 달성할 수 있습니다. Google Gemini의 모델 아키텍처는 Google DeepMind AlphaGo의 강화 학습 및 검색 트리 기술과 GPT-4의 대규모 언어 모델 기술을 결합하여 강력한 다중 모드 언어 이해(MMLU) 모델을 구성합니다. Google Gemini의 학습 데이터에는 Google의 지식 그래프와 구조화된 데이터는 물론 인터넷상의 대규모 텍스트, 코드, 이미지 데이터가 포함되어 있어 정확하고 상황에 맞는 답변을 제공할 수 있습니다.

Google은 Gemini 모델을 엄격하게 테스트하고 다양한 작업에서 성능을 평가했습니다. 자연스러운 이미지, 오디오 및 비디오 이해부터 수학적 추론 및 기타 작업까지.

데이터 관점에서 Gemini Ultra는 MMLU(대규모 다중 작업 언어 이해 데이터 세트) 작업에서 인간 전문가를 능가하는 최초의 대형 모델로, 최고 점수는 90.0%입니다. 비교를 위해 인간 전문가의 점수는 89.8%, GPT4의 점수는 86.4%입니다. MMLU 데이터 세트에는 수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 과목이 포함되어 있으며 대형 모델의 지식 보유량과 문제 해결 능력을 테스트하는 데 사용됩니다.

Gemini Ultra는 MMLU 작업 성능에서 최고 90.0%의 점수를 받았습니다.

MMLU 테스트 세트에 대한 새로운 접근 방식을 통해 Gemini는 추론 기능을 사용하여 어려운 질문에 대답하기 전에 더 신중하게 생각할 수 있으므로 질문의 첫인상을 기반으로 대답하는 것에 비해 성능이 크게 향상됩니다.

한편, Gemini는 멀티모달 작업에서도 GPT-4V를 종합적으로 능가했는데, Google은 Gemini Ultra가 대규모 언어 모델 개발에 널리 사용되는 32개 학술 벤치마크 테스트 세트에서 현재 SOTA를 능가했다고 밝혔습니다.

Gemini는 Google Research의 연구원을 포함한 Google 전반의 대규모 협업의 결과입니다. 이 모델은 처음부터 기본 다중 모드 구조로 포지셔닝되어 텍스트, 이미지, 비디오, 오디오 및 코드 전반에 걸쳐 작동할 수 있습니다. . 이는 텍스트 전용 GPT-3.5를 처음 출시한 OpenAI의 전략과 다르며, GPT-4가 되어서야 비전 등 멀티모달 기능을 추가하기 시작했습니다.

그러나 거의 모든 테스트에서 Gemini가 GPT-4를 앞서고 있음에도 불구하고 GPT-4 자체는 큰 도약이며 Gemini의 리드가 명확하지 않은 것 같습니다. 이에 대해 피차이는 "85%에서 돌파하려고 하면 이미 곡선의 끝에 있다는 점을 깨달아야 한다. 별 진전이 없어 보이더라도 우리가 여전히 만들어가고 있다는 뜻이다"라고 말했다. 진전."

그는 이러한 새로운 벤치마크 중 일부의 경우 현재의 기술 수준이 여전히 매우 낮으며 앞으로도 개선의 여지가 많다고 말했습니다. "스케일링 법칙은 여전히 ​​유효합니다. 모델이 확장됨에 따라 우리는 더 많은 진전이 있었고 정말 인공 지능의 잠재력을 탐구하기 시작한 것 같습니다. 또한 새로운 벤치마크를 개발해야 하며 이것이 우리가 MMLU 다중 모드 벤치마크를 검토하는 이유 중 하나입니다."
 

추천

출처blog.csdn.net/lsb2002/article/details/134966944