Beluga 오픈 소스 DataOps 플랫폼은 데이터 분석 및 대규모 모델 구축을 가속화합니다.

파일

저자 | 리 첸

편집자 | 데브라 첸

데이터 준비는 효과적인 셀프 서비스 분석 및 데이터 과학 관행을 추진하는 데 중요합니다. 오늘날 기업은 데이터 기반 의사결정이 성공적인 디지털 혁신의 핵심이라는 것을 알고 있지만, 효과적인 의사결정을 내리려면 신뢰할 수 있는 데이터만이 도움이 될 수 있습니다. 데이터의 양과 데이터 소스의 다양성이 기하급수적으로 증가함에 따라 이를 달성하는 것은 점점 어려워지고 있습니다.

오늘날 많은 기업에서는 데이터 통합에 많은 시간과 비용을 투자하고 있습니다. 이들은 데이터 웨어하우스 또는 데이터 레이크를 사용하여 데이터를 검색, 액세스 및 소비하고 AI를 활용하여 분석 사용 사례를 추진합니다. 그러나 그들은 호수 창고에서 빅데이터를 처리하는 것이 여전히 어렵다는 것을 금방 깨달았습니다. 데이터 준비 도구는 누락된 구성 요소입니다.

데이터 준비란 무엇이며 과제는 무엇입니까?

데이터 준비는 원시 데이터를 정리, 표준화 및 강화하는 프로세스입니다. 이를 통해 고급 분석 및 데이터 과학 사용 사례에 사용할 수 있는 데이터가 준비됩니다. 데이터 웨어하우스나 데이터 레이크로 이동할 데이터를 준비하려면 다음을 포함하여 시간이 많이 걸리는 여러 작업을 수행해야 합니다.

  • 데이터 추출
  • 데이터 정리
  • 데이터 표준화
  • 데이터 외부 서비스
  • 대규모로 데이터 동기화 워크플로를 조정합니다.

시간이 많이 걸리는 데이터 준비 단계 외에도 데이터 엔지니어는 기본 데이터를 정리하고 정규화해야 합니다. 그렇지 않으면 분석하려는 데이터의 컨텍스트를 이해하지 못하기 때문에 소규모 배치의 Excel 데이터가 종종 사용됩니다. 목적. 그러나 이러한 데이터 도구에는 한계가 있습니다. 첫째, Excel은 대규모 데이터 세트를 수용할 수 없고 데이터 조작을 허용하지 않으며 엔터프라이즈 흐름에 대한 신뢰할 수 있는 메타데이터를 제공할 수 없습니다. 데이터 세트를 준비하는 과정은 완료하는 데 몇 주에서 몇 달이 걸릴 수 있습니다. 설문 조사에 따르면 많은 기업이 데이터 준비에 최대 80%의 시간을 소비하고 있으며, 데이터를 분석하고 가치를 추출하는 데 사용되는 시간은 20%에 불과한 것으로 나타났습니다.

80/20 규칙 뒤집기

구조화되지 않은 데이터가 증가함에 따라 데이터 도구는 데이터를 삭제, 정리, 정리하는 데 그 어느 때보다 더 많은 시간을 소비하고 있습니다. 데이터 엔지니어는 심각한 오류, 데이터 불일치 및 처리 예외를 간과하는 경우가 많으며, 동시에 비즈니스 사용자는 점점 더 짧은 시간에 데이터를 요구하고 있으며 분석을 위한 고품질 데이터에 대한 요구가 그 어느 때보다 높습니다. 수요를 충족하다. 데이터 엔지니어와 데이터 분석가는 필요한 데이터를 찾고 준비하는 데 시간의 80% 이상을 소비하는 경우가 많습니다. 결과적으로 그들은 데이터를 분석하고 비즈니스 가치를 도출하는 데 시간의 20%만 소비하며 이러한 불균형을 80/20 규칙이라고 합니다.

그렇다면 80/20 규칙을 효과적으로 뒤집는 방법은 무엇일까요? 복잡한 데이터 준비, 민첩하고 반복적이며 협업적인 셀프 서비스 데이터 관리 방법인 DataOps는 기업이 데이터 준비 효율성을 크게 향상하고 80/20 낭비를 회사의 이점으로 전환할 수 있도록 지원하는 데 필요합니다. DataOps 플랫폼을 사용하면 IT 부서가 데이터 자산에 대한 셀프 서비스 기능을 제공하고 데이터 분석가가 올바른 데이터를 보다 효과적으로 검색할 수 있도록 하는 동시에 데이터 품질 규칙을 적용하고 다른 사람들과 더 효율적으로 협력하여 더 짧은 시간에 비즈니스 가치를 제공할 수 있습니다.

데이터 분석가에게 적시에 올바른 데이터를 제공하면 복잡한 데이터를 준비하고 데이터 품질 규칙을 적용할 수 있으며 비즈니스 가치를 더 짧은 시간에 제공할 수 있습니다. 이러한 엔터프라이즈급 데이터 준비 도구를 사용하여 데이터 및 비즈니스 팀은 다음을 수행합니다.

  • 데이터 검색 및 준비에 소요되는 시간을 줄이고 데이터 분석 및 AI 프로젝트를 가속화합니다.
  • 데이터 레이크에 저장된 대량의 정형 및 비정형 데이터 세트를 처리합니다.
  • 모델 개발 가속화 및 비즈니스 가치 창출
  • 예측 및 반복 분석을 통해 복잡한 데이터에 숨겨진 가치를 찾아보세요.

Beluga 오픈 소스가 어떻게 도움이 될 수 있습니까?

Beluga의 오픈 소스 DataOps 플랫폼 WhaleStudio는 코드가 필요 없는 민첩한 데이터 준비 및 데이터 협업 플랫폼을 제공하므로 기업은 데이터 과학 분석, 인공 지능(AI) 및 기계 학습(ML) 사용 사례에 더 집중할 수 있습니다.파일

전체 프로세스를 포괄하는 오케스트레이션, 스케줄링 및 OPS 기능

인텔리전스와 자동화는 속도, 규모, 민첩성에 매우 중요합니다. 데이터 개발의 모든 단계는 강력한 조정 및 일정 관리 기능의 이점을 활용합니다. 이러한 기능은 기업이 데이터를 처리하는 속도와 규모를 높이고 클라우드 플랫폼과 처리 엔진을 넘나들 수 있습니다. 다양한 데이터 작업을 관리합니다. White Whale의 오픈소스 WhaleStudio의 통합 스케줄링 시스템인 WhaleScheduler는 데이터 수집, 처리, 운영 및 유지, 서비스에 대한 원스톱, 체계적, 표준화된 파이프라인 관리 모델 구축을 도와드립니다. 데이터 소비 파이프라인을 위한 서비스를 통해 데이터 기능 서비스 운영 프로세스를 더욱 안전하고 민첩하며 지능적으로 만듭니다.

동시에 WhaleStudio는 DataOps 모범 사례를 기반으로 환경에 민첩성, 생산성 및 효율성을 제공하고 더 자주, 더 빠르게, 더 적은 오류로 릴리스하여 즉각적인 피드백을 얻을 수 있도록 도와줍니다. WhaleStudio의 IDE 및 협업 플랫폼은 즉시 사용 가능한 CI/CD 기능을 제공하므로 개발, 운영 및 보안의 사일로를 무너뜨리고 전체 데이터 개발 수명 주기에 걸쳐 일관된 경험을 제공할 수 있습니다. 그림

데이터 가져오기

처리 흐름을 파악한 후 데이터를 데이터 레이크로 가져와야 하는데, 일반적으로 데이터를 먼저 초기화한 후 기본 데이터를 전부 레이크로 가져온 다음 데이터에서 변경된 데이터(CDC)를 캡처합니다. 실시간 데이터 캡처를 달성하기 위한 증분 로딩 소스입니다.

개발자는 Beluga의 오픈 소스 WhaleStudio에 있는 데이터 동기화 도구인 WhaleTunnel을 사용하여 파일, 데이터베이스 및 CDC 레코드를 자동으로 로드할 수 있습니다.클라우드 네이티브 솔루션을 사용하면 지연이 있는 모든 데이터(배치, 증분, 준실수)를 신속하게 도입할 수 있습니다. -시간, 실시간). 사용이 간편하고 마법사 기반이며 코드가 적으므로 누구나 즉시 사용할 수 있습니다.

데이터가 신뢰할 수 있고 사용 가능한지 확인

데이터가 데이터 레이크에 수집되면 데이터가 깨끗하고 신뢰할 수 있으며 사용할 준비가 되었는지 확인해야 합니다. Beluga의 오픈 소스 데이터 통합 ​​및 데이터 품질 솔루션을 통해 개발자는 간단한 시각적 인터페이스에서 드래그 앤 드롭 방식을 사용하여 데이터 파이프라인을 신속하게 구축, 테스트 및 배포할 수 있습니다.

WhaleScheduler에 내장된 데이터 품질 모듈은 데이터 분석, 정리, 중복 제거 및 데이터 검증을 포함한 광범위한 데이터 품질 기능을 제공하여 사용자가 "가비지 인 및 가비지 아웃" 문제를 피하고 데이터가 깨끗하고 신뢰할 수 있으며 사용 가능하도록 보장합니다. WhaleScheduler 시스템(WhaleScheduler)의 메타데이터 모듈은 기업이 다양한 데이터 소스와 대상의 상황을 신속하게 분석하고 개발자 간의 핸드오버 및 코드 검토 효율성을 가속화하며 데이터 정확성을 더욱 보장할 수 있도록 혈연 분석 기능을 제공합니다.

고성능 데이터 처리 파이프라인 생성

데이터가 데이터 웨어하우스나 데이터 레이크에 입력되면 데이터 사용자는 데이터 세트를 추가로 분할하고 분석하기를 원할 수 있으며 계속해서 흰고래 일정 관리 시스템(WhaleScheduler)의 시각적 디자이너를 사용하여 DAG 논리를 구축할 수 있습니다. WhaleTunnel에 내장된 데이터 통합 ​​기능은 코드 프리 인터페이스를 사용하여 고성능 엔드 투 엔드 데이터 파이프라인을 신속하게 구축할 수 있으므로 개발자는 클라우드 또는 로컬 시스템 간에 데이터를 쉽게 이동하고 동기화할 수 있습니다. 일괄 스트림 통합 데이터 동기화 방법은 오프라인 동기화, 실시간 동기화, 전체 동기화, 증분 동기화 등 다양한 시나리오와 완벽하게 호환되므로 데이터 통합 ​​작업 관리의 어려움이 크게 줄어듭니다.

요약하자면 Beluga 오픈 소스 WhaleStudio 제품군은 기업이 내부 다중 데이터 소스 및 다중 데이터 시스템의 복잡한 데이터 통합, 지속적인 개발, 지속적인 배포, 데이터 캡처 및 데이터 연결과 같은 일련의 문제를 해결하고 데이터 속도를 높이는 데 도움을 줄 수 있습니다. 데이터 분석 능력과 대형 모델 구축 능력을 종합적으로 향상시킵니다.

이 기사는 Beluga Open Source Technology 에서 출판되었습니다 !

Supongo que te gusta

Origin blog.csdn.net/DolphinScheduler/article/details/132597391
Recomendado
Clasificación