KubeCon 핫스팟 보고서: AIStation 스케줄링 플랫폼은 RoCE 네트워크에서 대규모 모델의 효율적이고 안정적인 훈련을 실현합니다.

최근 KubeCon + CloudNativeCon + Open Source Summit China 2023 컨퍼런스('오픈 소스 기술 서밋')에서 Inspur Information은 "Kubernetes+RoCEv2를 기반으로 한 대규모 AI 인프라 및 대형 모델 훈련 방식 구축" 주제 보고서를 공유했습니다. ", Inspur 소개 대규모 모델 개발 과정, 특히 대규모 RoCE 네트워크의 사용 시나리오에서 AIStation 인공 지능 컴퓨팅 전력 스케줄링 플랫폼을 사용하여 대규모 모델 교육의 안정성과 효율성 요구 사항을 충족하고 효율적이고 효율적인 달성을 달성하는 방법 장기간의 지속적인 훈련.

KubeCon + CloudNativeCon + Open Source Summit은 Linux Foundation과 Cloud Native Computing Foundation(CNCF)이 주최하는 오픈소스 및 클라우드 네이티브 분야의 대표적인 행사로, Google 등 유명 기업들이 참여하는 등 업계에서 높은 평가를 받고 있습니다. , Amazon, Intel, Hugging Face 등 회사 내 약 100명의 글로벌 기술 전문가와 업계 리더들이 이번 컨퍼런스에 모여 최첨단 클라우드 네이티브 관련 기술 성과와 기술 통찰력을 가져왔습니다.

대규모 모델 훈련에서는 낮은 RoCE 네트워크 성능 및 중단점 문제가 발생합니다.

대형 모델은 현재 일반 인공지능 산업의 발전과 혁신을 위한 핵심 기술이다. 그러나 대형 모델의 훈련 과정은 매우 복잡하고 많은 어려움에 직면해 있습니다.

한편으로 대규모 모델 교육에는 의사소통 요구 사항이 매우 높습니다. 최적의 훈련 결과를 얻기 위해 단일 GPU 서버에는 InfiniBand, ROCE 등 여러 고성능 네트워크 카드가 장착되어 노드 간 통신을 위한 높은 처리량과 낮은 지연 시간 서비스를 제공합니다. 그러나 다양한 네트워크 솔루션에는 고유한 장점과 단점이 있습니다. InfiniBand는 뛰어난 성능으로 인해 대규모 모델 훈련에 대한 첫 번째 선택으로 인식되었지만 비용이 상대적으로 높습니다. RoCE는 비용이 저렴하지만 성능과 안정성이 더 좋습니다. 대규모 네트워크 환경에서는 InfiniBand 솔루션만큼 좋지 않습니다. 따라서 대규모 모델 훈련의 통신 요구 사항을 충족하기 위해서는 클러스터 네트워크의 통신 장비 및 네트워크 조건의 적응형 사용을 탐색하고 설계해야 합니다.

반면, 대형 모델의 학습 주기는 대개 수개월에 걸쳐 이루어지며, 클러스터 컴퓨팅 효율성이 낮고, 실패가 자주 발생하며, 처리가 복잡하여 학습이 중단된 후 제때에 복구할 수 없게 되어 학습 시간이 줄어듭니다. 대규모 모델 훈련의 성공률과 훈련 비용이 가장 높습니다. 너무 높습니다. Meta가 OPT(Open Pre-trained Transformer)-175B 대형 모델을 훈련할 때 직면한 주요 엔지니어링 문제는 불안정한 훈련이었습니다. Meta 훈련 로그에 따르면 하드웨어, 인프라 또는 실험적 안정성 문제로 인해 2주 이내에 40번의 재시작이 반복적으로 발생했습니다.

AIStation은 RoCE 네트워크에서 대형 모델의 효율적이고 안정적인 훈련을 실현합니다.

대형 모델 R&D 및 응용의 모든 측면에서 많은 과제에 대응하여 Inspur Information은 전체 스택 및 전체 프로세스를 제공하는 대형 모델 지능형 컴퓨팅 소프트웨어 스택 OGAI(Open GenAI Infra) - "Yuan Nao가 지능을 생성합니다"를 출시했습니다. 대규모 모델 비즈니스를 위한 지능형 컴퓨팅 소프트웨어 스택. OGAI 소프트웨어 스택은 5계층 아키텍처로 구성되며, 그 중 L2 계층 AIStation은 "낮은 RoCE 네트워크 성능 및 안정성"과 "훈련 중단"이라는 일반적인 문제를 해결하기 위해 뛰어난 성능과 호환성을 갖춘 네트워크 솔루션과 중단점을 제공합니다. 모델 훈련.훈련을 계속할 수 있는 능력은 대규모 모델 훈련을 보장합니다.

  1. RoCE 네트워크에서 대규모 모델 훈련을 최적화하여 네트워크 성능 및 안정성 향상

AIStation은 합리적인 작업 실행 계획을 수립하여 리소스 활용도를 극대화하고 훈련 작업의 대기 시간 및 처리량 요구 사항을 충족할 수 있습니다. AIStation은 스케줄링 시스템의 성능을 최적화하여 수천 개의 POD에 대해 매우 빠른 시작 및 환경 준비를 달성합니다. 특히 AIStation은 대규모 RoCE 무손실 네트워크에서 대형 모델의 훈련을 최적화했으며, 측정된 네트워크 성능 안정성은 업계에서 높은 수준에 도달했습니다.

AIStation은 PFC+ECN을 통해 무손실 이더넷 네트워크를 구축합니다.스위치 측 제어 측면에서 PFC는 데이터 링크 계층에서는 패킷 대기열 우선 순위를 기반으로 하고 스위치 입구 측에서는 혼잡 제어를 수행합니다.ECN은 스위치 측의 식별 비트를 기반으로 합니다. 네트워크 계층의 데이터 패킷 헤더 혼잡 제어는 스위치의 출구 측에서 수행됩니다. 호스트 컨테이너 측 제어는 Linux 및 OFED 드라이버를 기반으로 정체 제어를 수행하는 Kubernetes Pod입니다. 이 솔루션은 유연한 리소스를 사용하고 여러 차례의 GPU 할당 및 재활용 후 GPU 배포의 조각화 문제를 해결합니다.

 

PFC+ECN 기반 무손실 이더넷 네트워크 구축

대규모 모델 훈련 시나리오에서 AIStation은 Calico를 통해 메타데이터 교환 네트워크를 구축하고, 물리적 RoCE 네트워크 카드를 기반으로 RDMA 통신 네트워크를 구축하며, CNI 및 가상화 플러그인을 통해 IP 할당을 구현하므로 POD 내의 대규모 모델 훈련 작업을 수행할 수 있습니다. NCCL의 PXN 및 기타 통신을 최대한 활용하고 네트워크를 효율적으로 사용할 수 있도록 기능을 최적화합니다.

AIStation 플랫폼의 도움으로 대형 상업 은행은 RoCE 네트워크 환경에서 DeepSpeed, Megatron-LM 및 대형 언어 모델과 같은 주류 대형 모델 훈련 프레임워크의 훈련을 완료하여 대형 모델 구현을 빠르게 실현했습니다.

  1. 내장된 모니터링 시스템과 지능형 운영 및 유지관리 모듈로 대형 모델의 안정적인 교육을 보장합니다.

견고성과 안정성은 대규모 모델 훈련을 효율적으로 완료하기 위한 필수 조건입니다. AIStation에 내장된 종합 모니터링 시스템과 지능형 운영 및 유지 관리 모듈을 사용하면 칩, 네트워크 카드, 통신 장비의 이상이나 고장을 신속하게 찾아낼 수 있습니다. 동시에 훈련 작업을 일시 중지 및 유지한 후 핫 백업 컴퓨팅 성능에서 비정상적인 노드를 자동으로 유연하게 교체합니다.마지막으로 건강한 노드를 사용하여 체크포인트를 빠르게 읽어 대규모 모델의 중단점에서 자동으로 훈련을 계속합니다. .

 

대규모 사전 학습 작업을 위한 예외 처리 및 중단점 학습 프로세스

  1. 환경을 자동으로 구성하고 대규모 모델 교육 작업을 신속하게 구축

AIStation은 컴퓨팅, 스토리지, 네트워크 및 기타 훈련 환경의 자동화된 구성을 실현하고 사용자가 몇 가지 간단한 단계만으로 기본 하이퍼 매개변수를 사용자 정의하고 대규모 모델 분산 훈련을 시작할 수 있도록 합니다. 또한 AIStation은 Megatron-LM, DeepSpeed ​​및 HangingFace의 많은 오픈 소스 솔루션을 포함하여 주류 대형 모델 훈련 프레임워크를 통합하여 2단계 구축 및 운영 환경을 달성합니다. 개발자가 대규모 클러스터 환경에서 분산 작업을 쉽게 제출하는 데 도움이 될 수 있습니다. GPU 컴퓨팅 성능을 위한 분산 작업의 요구 사항을 기반으로 스케줄링 시스템은 다양한 선호도 스케줄링 전략을 사용하여 분산 학습 작업 구축을 위한 기술적 임계값을 크게 줄입니다.

AIStation 플랫폼은 AI 개발, 애플리케이션 배포, 대규모 모델 엔지니어링 실무 분야에서 귀중한 경험과 기술을 축적해 왔으며, 다양한 산업 분야의 고객이 리소스, 개발 및 배포 수준에서 비용을 절감하고 효율성을 높일 수 있도록 지원합니다. 수직 산업 분야에서 AIStation 플랫폼은 주요 금융 고객과 바이오 제약 서비스 회사가 집중적인 데이터를 신속하게 활용하여 대형 모델을 훈련하고 검증할 수 있도록 지원하여 대형 모델 사업 비용을 크게 절감합니다. AIStation을 기반으로 한 대규모 상업 은행의 병렬 컴퓨팅 클러스터는 선도적인 대규모 분산 교육 지원 기능으로 2022 IDC "미래 디지털 인프라 리더" 상을 수상했습니다.

Inspur 정보 AIStation은 대형 모델 분야에서 업계 최고의 경험과 축적을 많이 쌓아 엔드투엔드 최적화를 달성했으며 대형 모델 시대에 더욱 적합한 AI 컴퓨팅 파워 스케줄링 플랫폼입니다. 앞으로 AIStation은 로우코드, 표준화된 대형 모델 개발 프로세스, 저렴하고 효율적인 추론 서비스 배포를 통해 고객이 대형 모델의 개발 및 구현을 신속하게 실현하고 생성 AI 개발을 가속화하도록 더욱 지원할 것입니다.

마이크로소프트, 새로운 '윈도우 앱' 출시 샤오미는 샤오미 벨라가 완전 오픈소스이며, 기반 커널은 NuttX Vite 5 라고 공식 발표 했다 알리바바 클라우드 11.12 정식 출시 실패 원인이 드러난다: 액세스 키(Access Key) 서비스 이상 GitHub 보고서: TypeScript가 Java를 대체하고 세 번째로 인기를 얻음 언어 운영자의 기적적인 작업: 백그라운드에서 네트워크 연결 끊기, 광대역 계정 비활성화, 사용자에게 광 모뎀 변경 강제 ByteDance: AI 를 사용하여 Linux 커널 매개변수 자동 조정 Microsoft 오픈 소스 터미널 채팅 Spring Framework 6.1 공식적으로 GA OpenAI 전 CEO 겸 사장 Sam Altman & Greg Brockman이 Microsoft에 합류
{{o.이름}}
{{이름}}

Guess you like

Origin my.oschina.net/u/5547601/blog/10117521