대형 모델 트랙에서 화려한 코너 추월을 달성하는 방법 [도서 기부 이벤트 | "분산 통합 빅데이터 가상 파일 시스템 Alluxio 원리, 기술 및 실습" 제10호]


인공 지능(AI) 및 기계 학습(ML) 분야에서 데이터 기반 의사 결정 및 모델 교육은 현대 응용 프로그램 및 연구의 핵심이 되었습니다. 대형 모델 기술의 급속한 발전으로 인해 모델 교육에 필요한 데이터 규모가 지속적으로 확대되고 있으며, 데이터 처리, 저장 및 전송이 큰 과제에 직면해 있으며 기존의 저장 및 처리 방법으로는 더 이상 실시간 및 성능 요구 사항을 충족할 수 없습니다. 동시에, 서로 다른 컴퓨팅 프레임워크 간의 데이터 섬 문제도 데이터의 효과적인 사용을 제한합니다. 치열한 경쟁을 벌이는 대형 모델 트랙에서 두각을 나타내고 화려한 코너 추월을 달성하는 방법은 많은 참가자들이 막대한 인력과 물적 자원을 투자해 지속적인 탐구를 해왔던 방향이 되었습니다.

그 중에서도 모델 교육이 최우선 과제가 되었습니다. 모델 훈련을 수행할 때 분석 결과를 빠르게 생성하려면 효율적인 데이터 플랫폼 아키텍처가 필요하며, 모델 훈련은 대규모 데이터 세트에 크게 의존합니다. 모델 훈련을 수행하는 첫 번째 단계는 훈련 데이터를 스토리지에서 컴퓨팅 엔진 클러스터로 전송하는 것이며, 데이터 워크플로우의 효율성은 모델 훈련의 효율성에 큰 영향을 미칩니다. 실제 시나리오에서 AI/ML 모델 교육 작업에는 데이터 플랫폼에 대해 다음과 같은 요구 사항이 있는 경우가 많습니다.

01 대용량의 작은 파일에 대한 빈번한 데이터 액세스를 위한 I/O 효율성

AI/ML 워크플로에는 모델 훈련 및 추론뿐만 아니라 초기 데이터 로딩 및 전처리 단계도 포함되며, 특히 초기 데이터 처리는 전체 워크플로에 큰 영향을 미칩니다. 기존 데이터 분석 애플리케이션과 비교하여 AI/ML 워크로드는 데이터 로드 및 사전 처리 단계에서 대용량 소형 파일에 대한 I/O 요청이 더 빈번한 경우가 많습니다. 따라서 데이터 플랫폼은 워크플로우 속도를 높이기 위해 더 높은 I/O 효율성을 제공해야 합니다.

02 GPU 활용도 향상, 비용 절감, ROI 증대

기계 학습 모델 교육은 계산 집약적이며 데이터를 빠르고 정확하게 처리하려면 많은 양의 GPU 리소스가 필요합니다. GPU는 가격이 비싸기 때문에 GPU 활용도를 최적화하는 것이 중요합니다. 이 경우 I/O가 병목 현상이 됩니다. 워크로드는 GPU가 훈련 계산을 수행할 수 있는 속도가 아니라 GPU가 데이터를 공급할 수 있는 속도에 의해 제한됩니다. 데이터 플랫폼은 비용 절감을 위해 GPU 클러스터를 완전히 포화시키기 위해 높은 처리량과 낮은 대기 시간을 달성해야 합니다.

03 다양한 스토리지 시스템의 네이티브 인터페이스 지원

데이터의 양이 계속 증가함에 따라 기업에서는 단일 스토리지 시스템만 사용하기가 어렵습니다. 여러 사업부에서는 로컬 분산 스토리지 시스템(HDFS 및 Ceph)과 클라우드 스토리지(AWS S3, Azure Blob Store, Google Cloud Storage 등)를 비롯한 다양한 유형의 스토리지를 사용합니다. 효율적인 모델 훈련을 위해서는 다양한 환경에 저장된 모든 훈련 데이터에 접근할 수 있어야 하며, 사용자 데이터 접근을 위한 인터페이스는 기본이어야 합니다.

04 단일 클라우드, 하이브리드 클라우드, 멀티 클라우드 구축 지원

다양한 스토리지 시스템을 지원하는 것 외에도 데이터 플랫폼은 다양한 배포 모델도 지원해야 합니다. 데이터 볼륨이 증가함에 따라 클라우드 스토리지는 확장성이 뛰어나고 비용이 저렴하며 사용하기 쉽기 때문에 인기 있는 선택이 되었습니다. 기업은 제한 없이 단일 클라우드, 하이브리드 클라우드, 멀티 클라우드 배포를 실현하고 유연하고 개방적인 모델 교육을 달성하기를 원합니다. 또한, 컴퓨팅과 스토리지의 분리 추세가 점점 더 뚜렷해지고 있어 스토리지 시스템에 대한 원격 액세스가 발생하며, 이 경우 네트워크를 통해 데이터를 전송해야 하므로 성능 문제가 발생합니다. 데이터 플랫폼은 이기종 환경에서 데이터에 액세스할 때 고성능 요구 사항을 충족해야 합니다.

요약하면, AI/ML 워크로드는 다양한 유형의 이기종 환경에서 대량의 데이터에 빠르고 저렴하게 액세스해야 합니다. 기업은 모델 교육 워크로드가 효과적으로 데이터에 액세스하고 높은 처리량과 높은 GPU 활용도를 유지할 수 있도록 데이터 플랫폼을 지속적으로 최적화하고 업그레이드해야 합니다.

여기에 이미지 설명을 삽입하세요.

강력한 분산 통합 빅데이터 가상 파일 시스템인 Alluxio는 다양한 분야에서 탁월한 애플리케이션 가치를 입증했으며 AI/ML 교육 역량 강화를 위한 새로운 솔루션을 제공합니다. 핵심 비밀번호는 4가지 측면으로 구성됩니다.

01 데이터 추상화를 통한 데이터 사일로 통합

데이터 추상화 계층인 Alluxio는 데이터를 복사하거나 이동하지 않고도 원활한 데이터 액세스를 달성할 수 있으며, 로컬이든 클라우드이든 데이터는 그대로 유지됩니다. Alluxio를 통해 데이터를 추상화하여 통일된 뷰를 제공함으로써 데이터 수집 단계의 복잡성을 크게 줄입니다.

Alluxio는 이미 스토리지 시스템과 통합되어 있으므로 기계 학습 프레임워크는 연결된 모든 스토리지의 데이터에 액세스하기 위해 Alluxio와 상호 작용하기만 하면 됩니다. 따라서 모든 데이터 소스의 데이터를 훈련에 사용하고 모델 훈련의 품질을 향상시킬 수 있습니다. 데이터를 중앙 집중식 데이터 소스로 수동으로 이동할 필요 없이 Spark, Presto, PyTorch 및 TensorFlow를 포함한 모든 컴퓨팅 프레임워크는 데이터가 저장된 위치에 대해 걱정하지 않고 데이터에 액세스할 수 있습니다.

02 분산 캐싱을 통한 데이터 지역성 확보

Alluxio의 분산 캐시를 사용하면 그림 1과 같이 전체 데이터 세트를 각 시스템에 복사하는 대신 클러스터 전체에 데이터를 균등하게 분산할 수 있습니다. 분산 캐싱은 훈련 데이터 세트의 크기가 단일 노드의 저장 용량보다 훨씬 클 때 특히 유용합니다.데이터가 원격으로 저장되는 경우 분산 캐싱은 데이터를 로컬에 캐시하므로 데이터 액세스에 도움이 됩니다. 또한 데이터에 접근할 때 네트워크 I/O가 발생하지 않기 때문에 머신러닝 훈련이 더 빠르고 효율적입니다.

영상

그림 1 분산 캐시

위 그림과 같이 모든 학습 데이터는 Object Storage에 저장되며, 두 개의 파일(/path1/file1 및 /path2/file2)이 데이터 세트를 나타냅니다. 각 교육 노드에 모든 파일 블록을 저장하는 대신 여러 시스템에 분산되어 파일 블록을 저장합니다. 데이터 손실을 방지하고 읽기 동시성을 향상시키기 위해 각 블록을 여러 서버에 동시에 저장할 수 있습니다.

03 워크플로우 전반에 걸쳐 데이터 공유 최적화

모델 훈련 노력에서는 단일 작업 내에서나 다른 작업 간에 데이터 읽기 및 쓰기에 상당한 수준의 중복이 있습니다. Alluxio를 사용하면 그림 2와 같이 컴퓨팅 프레임워크가 후속 워크로드에서 읽고 쓸 수 있도록 이전에 캐시된 데이터에 액세스할 수 있습니다. 예를 들어 데이터 준비 단계에서 ETL 데이터 처리에 Spark를 사용하는 경우 데이터 공유를 통해 출력 데이터가 후속 단계에서 사용할 수 있도록 캐시될 수 있습니다. 데이터 공유를 통해 전체 데이터 워크플로우는 더 나은 엔드투엔드 성능을 달성할 수 있습니다.

영상

그림 2 Alluxio를 통해 워크플로 간 데이터 전달

04 데이터 사전 로드, 캐싱, 학습을 동시에 실행하여 데이터 워크플로우를 조정합니다.

Alluxio는 사전 로드 및 주문형 캐싱을 구현하여 모델 훈련 시간을 단축합니다. 그림 3에서 볼 수 있듯이 데이터 캐시를 통해 데이터 소스에서 데이터를 로드하는 것은 실제 훈련 작업과 병렬로 실행될 수 있습니다. 따라서 훈련을 시작하기 전에 모든 데이터가 캐시될 때까지 기다리지 않고도 데이터에 액세스할 때 높은 데이터 처리량을 통해 훈련할 수 있습니다.

영상

그림 3 Alluxio 데이터 로딩으로 GPU 활용도 향상

처음에는 I/O 지연이 발생하지만 캐시에 로드되는 데이터가 많아질수록 I/O 대기 시간은 줄어듭니다. 이 솔루션에서는 객체 스토리지에서 훈련 클러스터로의 훈련 데이터 세트 로드, 데이터 캐싱, 훈련을 위한 데이터의 주문형 로드 및 훈련 작업 자체를 포함한 모든 측면을 병렬로 실행하고 서로 인터리브할 수 있습니다. 따라서 전체 교육 과정이 크게 가속화됩니다.

영상

Alluxio와 기존 AI/ML 모델 교육 솔루션의 비교 분석, 특정 성능 테스트 및 다양한 산업 분야의 적용 사례에 대해 자세히 알아보려면 "분산 통합 빅 데이터 가상 파일 시스템 - Alluxio 원리, 기술 및 실습"을 읽어보세요. ".

생방송 미리보기

생방송 테마

Alluxio: 차세대 빅데이터 및 AI 혁신 가속화 |

"분산 통합 빅데이터 가상 파일 시스템 Alluxio의 원리, 기술 및 실습" 도서 출간 컨퍼런스

여기에 이미지 설명을 삽입하세요.

생방송 시간

9월 21일(목)

20:00 - 21:30

이번 라이브 방송에서는 빅데이터 분석, AI/ML 및 기타 시나리오에서 Alluxio의 기술 원리, 핵심 기능, 사용 방법 및 실제 사례를 주로 소개합니다.

실시간 방송 시청 방법

위챗 검색 영상 계정 : IT 독서 순위, 라이브 방송 예약

영상

추첨방법

  • 팔로우+좋아요+글수집

  • 댓글란에 메시지 남기기: 지식 전체를 배우고 승자를 찾아보세요. (팔로잉하고 메시지를 남겨주시면 상금에 들어갈 수 있으며, 한 사람당 최대 3개의 메시지를 남길 수 있습니다.)

  • 일요일 오후 8시 무작위 추첨

  • 이번에는 2~5권을 드립니다. [더 많이 읽을수록 더 많이 드립니다]
    500-1000 무료 책 2권
    1000-1500 무료 책 3권
    1500-2000 무료 책 4권
    2000+ 무료 책 5권

Supongo que te gusta

Origin blog.csdn.net/weixin_44816664/article/details/132985306
Recomendado
Clasificación