하나의 기사로 데이터 과학 노트북에 대해 알아보세요

편집자 주:

주로 노트북이 무엇인지, 데이터 사이언스 분야에서 노트북 애플리케이션의 중요성과 장점, 데이터 사이언티스트/알고리즘 팀이 노트북을 선택할 때 고려해야 할 핵심 요소를 소개합니다. 동시에 노트북의 심사 및 고려 사항 차원을 기반으로 일반 노트북에 대한 예비 비교 분석을 수행하여 데이터 과학자 및 알고리즘 엔지니어에게 참고 자료를 제공합니다.

       노트북은 웹페이지 기반의 인터랙티브 컴퓨팅 방식으로, 사용자는 노트북에서 개발, 문서 작성, 코드 실행, 결과 표시, 결과 공유 등을 할 수 있습니다. 기존의 비대화형 개발 환경에 비해 노트북의 가장 큰 특징은 스크립트를 셀 단위로 실행할 수 있다는 점입니다. 노트북은 데이터 과학 분야의 필수 도구로, 데이터 과학자는 노트북을 사용하여 실험과 탐색 작업을 수행합니다. 최근에는 빅데이터의 발달로 인해 비즈니스 분석가 등 비기술 인력이 노트북을 사용하기 시작했습니다.

01. 노트북의 핵심 장점

       전통적인 비대화형 개발 환경에서는 개발자가 작성한 프로그램을 실행 파일로 컴파일한 후 실행 파일을 완전히 실행해야 하는데, 에러가 발생하면 편집기로 돌아가서 새로운 코드를 입력하고, 그런 다음 전체 프로그램을 다시 실행하십시오.

        Notebook에서는 개발자가 셀 단위로 프로그램을 작성하고 실행할 수 있으며, 오류가 발생하면 오류가 발생한 셀만 조정하고 실행하면 됩니다. 올바르게 실행 중인 셀은 메모리에 저장되므로 실행할 필요가 없습니다. 이를 반복적으로 수행하는 것은 큰 개선이며 개발 효율성을 향상시킵니다. 따라서 노트북은 데이터 과학자와 알고리즘 엔지니어 사이에서 매우 인기가 높으며 AI 알고리즘 개발 및 교육 분야에서 널리 사용됩니다. 딥러닝 실험을 예로 들면, 모델 훈련은 일반적으로 몇 시간에서 10시간 이상이 소요되는데, 노트북을 모델 디버깅에 사용하면 사소한 변경 후에 전체 모델을 다시 훈련할 필요가 없어 데이터 과학자의 시간을 크게 절약할 수 있습니다. 그리고 알고리즘 엔지니어..

02. 노트북 기본구조

       최초의 노트북은 1988년에 출시된 Mathematica였습니다. 초기 노트북은 주로 학술 분야에서 사용됐으나, 지난 10년간 노트북이 점차 학계에서 산업 현장으로 진출하면서 오픈소스인 Jupyter, Apache Zeppelin, 상용 호스팅 Colab, JetBrains 등 점점 더 많은 노트북이 시장에 등장했습니다. .Datalore, IDP Studio** 등은 혼합 다국어 Polynote 등을 지원합니다.

       노트북에는 다양한 유형이 있지만 핵심 구성 요소에는 다음 두 가지 주요 구성 요소가 포함됩니다.

  • 하나는 사용자가 코드, 텍스트 등을 입력할 수 있는 입력/출력 셀의 정렬된 목록으로 구성된 프런트 엔드 클라이언트 입니다.
  • 또 다른 구성 요소는 로컬 또는 클라우드에서 구성할 수 있는 백엔드 커널(Kernel) 입니다 . 코드는 프런트 엔드에서 커널로 전달되고, 커널은 코드를 실행하고 결과를 사용자에게 반환합니다. 커널은 노트북의 컴퓨팅 성능을 결정하는데, IDP Studio는 Rust 언어를 사용하여 커널을 다시 작성하므로 노트북 시작 속도와 리소스 구성 속도가 10배 향상됩니다.

       (** 이 글은 일반적으로 IDP Studio의 노트북 인터랙티브 프로그래밍 환경을 지칭하기 위해 IDP Studio만을 사용합니다. IDP Studio의 모델 관리, 모델 게시 등 기타 플러그인 기능은 이 글의 범위를 벗어납니다.)

03. 적합한 노트북을 선택하는 방법

       다양한 노트북에는 고유한 특성이 있으며, 데이터 과학자와 알고리즘 엔지니어는 실제 사용 중에 자신의 핵심 요구 사항에 따라 가장 적합한 노트북 도구를 선택해야 합니다. 다수의 데이터 사이언티스트와의 인터뷰를 바탕으로, 데이터 사이언티스트가 노트북을 선택할 때 고민하는 핵심 이슈 4가지를 정리했으며, 이는 알고리즘 개발자와 데이터 마이닝 담당자가 도구 선택 기준에 대한 참고 자료로 활용할 수 있습니다.

1) 완벽한 기본 기능과 사용 편의성

       설치 및 배포: 초보 데이터 과학자를 위해 상업용으로 호스팅되는 노트북(예: IDP Studio, Colab, JetBrians Datalore)은 SaaS 모델을 채택하고 즉시 사용할 수 있으므로 설치 및 시작이 더 쉽습니다. 오픈소스 노트북은 사용자가 설치해야 하는데, 일반적으로 로컬 설치는 비교적 쉽지만, 원격 서버에 설치하여 실행하는 경우에는 상당히 까다롭습니다.

       버전 관리: 알고리즘 모델과 알고리즘 인터페이스는 모두 지속적으로 업데이트되고 최적화되어야 하며 버전 관리가 중요합니다. 다양한 노트북 버전 관리 기능의 완성도와 사용 편의성은 다양합니다.예를 들어 Jupyter와 같은 오픈 소스 제품은 버전 관리를 위해 Git을 지원하고, IDP Studio 등은 Git을 지원하면서 버전 관리 기능이 내장되어 있으며 자동으로 기록 버전을 저장합니다. Colab은 일시적으로 버전 관리 기능을 지원하지 않습니다.

       언어 지원: 기계 학습 및 데이터 과학 분야에서 일반적으로 사용되는 언어에는 Python, SQL, R 등이 있으며 Python이 훨씬 앞서 있습니다.Kaggle이 25,000명 이상의 데이터 과학자를 대상으로 한 2021년 설문 조사에 따르면 84%가 Python을 사용합니다. 현재 모든 일반 노트북은 Python을 잘 지원하지만, 두 번째와 세 번째로 가장 많이 사용되는 언어인 SQL과 R에 대한 지원 깊이는 동일하지 않습니다. 따라서 데이터 과학자가 도구를 선택할 때 노트북이 일반적으로 사용되는 언어를 자연스럽게 지원하는지 고려해야 합니다. 예를 들어 Jupyter는 Python, Julia 및 R 언어를 더 잘 지원할 수 있지만 SQL을 지원하는 경우 플러그인을 설치하고 직접 구성해야 합니다. IDP Studio는 자연스럽게 Python 및 SQL을 심층적으로 지원하지만 일반적으로 사용되는 다른 언어는 아직 지원하지 않습니다. Scala를 사용해야 하고 다른 여러 언어가 잘 지원된다면 Polynote를 고려해 볼 수 있습니다.


2) 효율성 향상

       데이터 과학자들은 기본 기능을 기반으로 노트북이 비핵심 작업을 줄이고 개발 효율성을 높이는 데 도움이 되는지 여부에 중점을 둡니다.

       코드 지원: 코드 지원은 개발자가 시간을 절약하고 효율성을 높이는 데 큰 도움이 됩니다. 주요 코드 지원에는 코드 완성, 오류 프롬프트, 빠른 복구, 정의 점프 등이 포함됩니다. 오픈 소스 도구는 풍부한 생태계를 갖추고 있으며 일반적으로 타사 플러그인을 사용하여 코드 지원 기능을 구현합니다. 상업용 호스팅 제품에는 코드 지원 기능이 내장되어 있지만 기능적 초점과 성능이 다르며 그 중 코드 완성이 공통 기능입니다. IDP Studio는 코드 지원 기능 측면에서 가장 포괄적이고 속도와 성능 측면에서 상대적으로 더 나은 경험을 제공하지만 일부 타사 라이브러리의 기능 완성도는 개선될 필요가 있습니다.

       데이터 소스에 대한 액세스: 데이터는 데이터 과학자의 일상 업무의 초석입니다 . 일반적으로 데이터 소스는 여러 곳에 분산되어 있어 데이터 액세스에 큰 어려움을 겪습니다. 데이터에 쉽게 접근하는 것이 중요하며, 데이터 과학자는 자신의 데이터 소스 분포에 따라 적절한 노트북을 선택해야 합니다. 현재 Jupyter 및 Zeppelin 오픈소스 소프트웨어에서는 데이터 과학자가 자체 액세스를 구성해야 합니다. Colab은 Google 드라이브의 데이터 액세스만 지원합니다. IDP Studio는 주류 데이터 소스와 통합 및 도킹되었으며 사용자는 클릭 한 번으로 데이터 소스에 액세스할 수 있습니다.

       환경 관리: 우선, 성숙한 데이터 과학자와 알고리즘 팀은 편리한 환경 설정 및 환경 관리에 대한 더 중요한 요구 사항을 가지고 있으며, 환경을 빠르게 구성하고 동시에 구축하고 관리할 수 있기를 원합니다. 개인과 팀이 공유할 수 있는 일관된 환경 성적 환경. 노트북마다 환경 구성 및 재사용에 대한 지원이 다르며 일반적으로 팀 협업을 자연스럽게 지원하는 Datalore가 환경 관리 측면에서 약간 더 유용합니다. 사용자는 환경 관리에 대한 자신의 필요에 따라 선택할 수 있습니다.


3) 협업 가속화

       팀 간 협업 분석: 알고리즘과 비즈니스 분석이 점점 더 결합되고 있습니다. 알고리즘 개발자는 알고리즘 팀과 비즈니스 팀 간의 효율적인 협업 분석을 달성하기 위해 대화형 시각적 보고서 형식으로 비즈니스 담당자와 결과를 공유하기를 희망합니다. 팀 간 협업에 대한 필요성이 강한 데이터 과학자는 올해 새로 출시된 Datalore 및 IDP Studio와 같은 노트북에 더 많은 관심을 기울이고 기능 포지셔닝 측면에서 팀 협업을 강조할 수 있습니다.
       협업 프로그래밍: 팀 간 협업 외에도 노트북 공유, 실시간 협업 편집 및 댓글 작성도 데이터 과학자의 점점 더 중요한 요구 사항이 되었습니다. 현재 해외 데이터 과학자들은 이 기능에 대한 수요가 더 강한 것으로 보입니다. 현재 일반 노트북은 어느 정도 협업 프로그래밍을 지원하지만 실시간 성능과 사용 편의성에는 차이가 있다.


4) 비용

       일반적으로 비용은 데이터 과학자 및 알고리즘 엔지니어의 선택에 영향을 미치는 중요한 고려 사항이지만 노트북 선택 분야에서는 인스턴트 상업용 노트북이 일반적으로 적합하지 않기 때문에 성능 및 사용 편의성보다 이 요소가 상대적으로 덜 중요하다고 생각합니다. 개인 사용자는 무료 기본 버전을 사용할 수 있습니다.

       우리는 노트북이 점점 더 대중화되고 점차적으로 알고리즘 팀과 비즈니스 팀 간의 커뮤니케이션 브리지가 되는 것을 보게 되어 기쁩니다. 노트북은 또한 업계에 추가로 적용되어 데이터 과학자에게 알고리즘 개발, 실험 및 탐색에 대한 훌륭한 지원을 제공합니다.

더 많은 기술 콘텐츠를 보려면 Baihai IDP를 참조하세요.
 

Supongo que te gusta

Origin blog.csdn.net/iamonlyme/article/details/132799945
Recomendado
Clasificación