Inspur 정보: 대규모 모델 네트워크를 위한 새로운 옵션을 제공하기 위해 개방형 네트워크 도입

최근에는 대형 모델로 인해 예상치 못한 생산성 변화가 발생했습니다. 빅 모델에 힘입어 네트워크를 포함한 많은 기술의 발전도 우리의 원래 인식과 예측을 뛰어넘었습니다.

과거 인공지능 분야에서는 컴퓨팅 파워, 알고리즘, 데이터가 인공지능 발전을 이끄는 3대 동력이었으며, 네트워크 연결의 역할은 사람들에게 그다지 중요하게 여겨지지 않았습니다. 수천 개의 GPU 카드의 컴퓨팅 성능이 필요한 경우가 많습니다. 따라서 서버 간의 통신 요구 사항이 거대해지고 네트워크 대역폭과 지연이 데이터 센터의 GPU 클러스터 시스템의 가장 큰 병목 현상 중 하나가 됩니다.

갑자기 인터넷 업계의 각계각층의 사람들이 돌파구를 찾기 위해 경쟁했습니다. 최근 베이징에서 열린 2023 오픈 컴퓨팅 중국 커뮤니티 기술 서밋(OCP China Day 2023)에서 우리는 대형 모델 개발에서 '오픈 네트워크' 관련 기술이 가져온 변화와 지원에 대해 배웠습니다.

개방형 네트워크 : 대규모 모델 네트워크를 위한 새로운 선택

개방형 기술은 IT 인프라 제품, 사양, 지적재산권 등의 공유를 통해 기술 혁신을 촉진하고 가속화하며, IT 인프라에 대한 다양한 산업의 증가하는 요구를 효과적으로 지원합니다. 개방형 기술은 컴퓨팅 분야에서 큰 성공을 거두었고, 선도적인 클라우드 서비스 제공업체의 데이터 센터는 개방형 컴퓨팅 기술을 기반으로 구축되어 클라우드 컴퓨팅 비즈니스 혁신을 가속화하고 있습니다.

점점 더 많은 서비스가 디지털화됨에 따라 데이터센터 내 네트워크 트래픽이 급증하면서 네트워크 대역폭에 대한 수요가 증가하고 있으며, 네트워크 자원의 유연한 확장과 민첩한 O&M을 달성하기 위해 네트워크 디커플링의 필요성이 점점 더 시급해지고 있습니다. 개방형 네트워크는 네트워크 하드웨어 장치와 소프트웨어 코드의 분리를 통해 네트워크 소프트웨어와 하드웨어의 분리를 실현하여 보다 유연하고 민첩하며 프로그래밍 가능한 네트워크 아키텍처를 만듭니다. 전반적으로 개방형 네트워크는 총 소유 비용을 1/3로 줄이고, 새로운 서비스 출시 시간을 50% 단축하며, 전반적인 O&M 효율성을 두 배로 높일 수 있습니다.

Inspur 정보 네트워크 R&D 부서 총책임자 Li Pengchong에 따르면 개방형 네트워크는 네트워크 하드웨어와 소프트웨어의 분리를 통해 혁신과 반복의 속도를 가속화하고 보다 유연하고 민첩하며 프로그래밍 가능한 네트워크 아키텍처를 생성하며 새로운 선택을 제공합니다. AIGC 대규모 네트워크용.

우선, 대형 모델의 빠른 업그레이드는 네트워크 대역폭에 대한 요구 사항을 더욱 높입니다. 즉, 네트워크 하드웨어의 빠른 혁신이 필요하며, 칩이 나오면 이를 따라잡을 수 있는 스위치와 네트워크 장치가 즉시 출시되어야 합니다.

둘째, 대형 모델은 엔드투엔드 트래픽 모델이므로 협력하려면 네트워크 카드와 스위치가 있어야 합니다. 따라서 네트워크 카드와 스위치는 두 가지 핵심 문제를 해결해야 합니다. 하나는 엔드투엔드입니다. 흐름 제어, 네트워크 정체를 해결하기 위한 좋은 알고리즘이 있어야 합니다. 두 번째는 네트워크 스트리밍에 대한 로드 밸런싱을 잘 수행하는 것입니다.

셋째, MaaS(Model as a Service, Model as a Service)의 다양한 하드웨어 요구 사항에 대응하여 개방형 네트워크는 탄력적인 네트워크 구축을 보장하고 네트워크 리소스의 신속한 할당 및 분할을 실현하는 동시에 여러 테넌트 간의 보안 격리를 보장합니다.

혁신과 반복이 기본적으로 연도를 기반으로 하는 전통적인 폐쇄형 네트워크는 대규모 네트워크의 요구를 크게 충족할 수 없으므로 시장에 나와 있는 진정으로 성숙한 대규모 네트워크의 대부분은 개방형 네트워크 제품을 기반으로 합니다. 그리고 아이디어 아키텍처.

Inspur Information은 고성능 무손실 이더넷 솔루션을 만듭니다 . 

우리 모두 알고 있듯이 대규모 모델 훈련에는 컴퓨팅 성능, 알고리즘, 스토리지, 네트워크 전송과 같은 핵심 기술이 필요합니다.현재 컴퓨팅 성능 및 스토리지 기술이 빠르게 발전함에 따라 더 큰 대역폭과 더 짧은 대기 시간을 갖춘 네트워크 솔루션이 필요합니다.

Inspur Information은 수년간의 개방형 네트워크 축적을 바탕으로 400G 고성능 스위치 및 스마트 네트워크 카드를 통해 대규모 모델 교육을 위한 고성능 무손실 이더넷 솔루션 세트를 만들었습니다. 이 솔루션의 스위치 네트워크는 패킷 전달 모드를 지원하고 스마트 네트워크 카드에서 수신 측 사전 흐름 알림 및 메시지 순서가 맞지 않는 조정 메커니즘을 구현합니다. 이 혁신적인 모델은 기존 ECMP 라우팅의 불균형 링크 로드 결함을 해결하고 네트워크 수준에서 혼잡을 방지하며 400G 고대역폭 제공을 기반으로 전달 지연을 크게 줄여 대규모 모델 훈련 가속화 요구 사항을 완전히 충족합니다.

또한 분산 저장 및 초융합과 같은 가속화된 비즈니스 시나리오를 위해 Inspur Information은 엔드 투 엔드 RoCE 솔루션을 제공합니다.UXOS 프로그래밍 가능 INT 기술을 기반으로 하는 네트워크 지능형 스케줄링 제어 평면은 트래픽 특성 및 혼잡 상태를 수집합니다. 고객의 다양한 비즈니스 시나리오에 따라 네트워크 장비를 실시간으로 모니터링하고 지능형 스케줄링 제어 플랫폼의 알고리즘을 통해 스위치 및 네트워크 카드의 PFC/ECN/DCQCN과 같은 RoCE를 자동으로 조정합니다. 매개 변수를 구성하여 고객 비즈니스의 신속한 배포 및 최적 구성을 지원합니다. 네트워크; 동시에 가속화된 비즈니스 시나리오를 위한 다수의 일반적인 매개변수 구성을 축적하여 고객 비즈니스가 쉽게 온라인에 접속할 수 있도록 지원할 수 있습니다.

개방형 네트워크의 지속적인 진화 는 데이터 센터 네트워크 기술 의 혁신을 촉진합니다.

현재 100개 모델 전쟁이 격화되고 있으며, 업계에서도 점점 더 대형 모델들이 전장에 쏟아지고 있어 대형 모델의 급속한 진화 가능성이 더 많아지고 있어 개방형 네트워크에 대한 수요도 앞으로도 계속될 것이다. 진화하다. Inspur 정보 네트워크 R&D 부서 부국장 Chen Xiang에 따르면 개방형 네트워크의 향후 개선 방향은 세 가지가 있습니다.

하나는 더 나은 엔드투엔드 흐름 알고리즘입니다. 현재 RDMA(네트워크)는 DCQCN 알고리즘을 더 자주 사용합니다. 대형 모델 시대가 도래한 후 이 알고리즘은 더 이상 대형 모델의 흐름 제어에 대한 실제 요구 사항을 완전히 충족할 수 없으므로 더 나은 흐름 제어 알고리즘이 필요합니다.

두 번째는 네트워크의 다중 경로 선택이 더욱 개선되어야 할 주제였습니다.

세 번째는 기존 네트워크의 전송 계층으로, 여전히 수십 년 전의 IB 전송 계층을 기반으로 하고 있으며, 네트워크 전력을 최대한 활용하려면 전체 전송 계층을 재구성해야 할 수도 있습니다.

전체적으로 컴퓨팅 다양화, 애플리케이션 다양화, 기술 복잡성은 데이터 센터의 새로운 전환을 주도하고 있으며, 오픈 소스와 오픈 커뮤니티는 데이터 센터의 지속적인 혁신을 촉진하는 중요한 힘이 되었습니다. , 우리는 데이터 센터의 기본 문제, 시설 반복 및 지속 가능한 개발 등 주요 문제를 해결하기 위해 함께 노력할 것입니다. Inspur Information이 대표하는 개방형 네트워크 기업은 하드웨어 생태학에서 소프트웨어 생태학, 관리 생태학에 이르기까지 완전한 산업 생태계를 구축하고 있으며 개방형 네트워크 생태학의 영향력을 지속적으로 향상시키고 AIGC 네트워킹에 대한 새로운 선택을 제공하고 있습니다.

Acho que você gosta

Origin blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/132564323
Recomendado
Clasificación