약 12 빅 데이터 프레임 워크 하둡 사실

오늘, 아파치 하둡은 모든 사람에게 알려진 의심 할 여지가 없습니다. 더그 다음 야후 검색 엔지니어를 절단 분산 컴퓨터 환경을 만들기위한이 오픈 소스 소프트웨어 라이브러리를 개발, 코끼리 언젠가는 최초의 "빅 데이터"를 차지할 것으로 생각되는 시간에 대한 그의 아들의 이름 인형 기술 의자 그것.

 

하둡 큰 위로 뜨거운와 함께 데이터,하지만 난 거기에 생각하지만 여전히 많은 사용자들이 그것을 이해하지 않습니다. TDWI 솔루션 정상 회의, TDWI 리서치의 산업 애널리스트 인 필립 Russom 이사는 출판의 이름으로 지난 주 "하둡에 12:00 사실은,"다음의 기조 연설은 본질의 내용을 요약 한 것입니다, 당신은 하둡은이에 대해 자세히 알아 보려면 도움이됩니다.

 

1 하둡은 여러 제품 구성되는

 

사람들이 자주 하둡에 대해 이야기하고 때 볼 수있는 하나의 제품으로 생각하지만, 사실 그것은 구성된 다른 제품의 다수로 구성되어있다.

 

Russom는 "하둡은 오픈 소스 제품의 일련의이 제품은 아파치 소프트웨어 재단의 프로젝트이다의 조합입니다."

 

하둡, 맵리 듀스 사람들에 대한 언급은 조립되는 경향이 있지만, 사실은, 맵리 듀스와 HDFS와 같은 하둡도의 기초이다.

 

2, 아파치 하둡은 오픈 소스이지만, 독점 공급 업체는 제품을 하둡을 제공

 

하둡은 자신의 특별한 릴리스 하둡을 시작할 수 있습니다 IBM, 클라우 데라 및 EMC 그린 플럼 및 다른 제조업체 있도록 무료로 다운로드 할 수 있습니다 오픈 소스 기술에 속하기 때문이다.

 

이 특별한 분포는 일반적으로 고위 관리 지원 도구 및 관련 유지 보수 서비스와 같은 몇 가지 추가 기능을해야합니다. 오픈 소스 커뮤니티는 무료이기 때문에, 그래서 우리는 자사의 서비스에 대해 지불해야하는 이유 Russom는 HDFS의이 버전은 특히 기업의 IT 시스템은 상대적으로 성숙 사용자되었습니다, 일부 IT 부서에 더 적합하다고 설명했다? : 일부 비웃다 수 있습니다

 

3 하둡 오히려 제품보다 생태계이다

 

하둡은 공동 개발 및 오픈 소스 커뮤니티와 다양한 제조업체에 의해 추진된다. 특히, 하둡의 제품 구조의 제조 업체와 강한 관계.

 

Russom는 "플랫폼은 데이터 통합 ​​플랫폼 업데이트 된 플랫폼, 하둡을위한 다양한 인터페이스를 제공에서 예외가 아니다,보고되었습니다."

 

4, HDFS 파일 시스템이 아닌 데이터베이스 관리 시스템

 

Russom 가장 참을 수없는 사람들이 종종 두 가지를 혼동한다는 것이다. 그것은 데이터 세트가 HDFS를 사용할 수없는 하나의 매우 중요한 특성 데이터 관리 시스템입니다 관리 할 수 ​​있습니다.

 

데이터베이스 관리 시스템, 우리는 종종 하둡에서 구조화 된 데이터를 다루는 데이터에 대한 인덱스 랜덤 액세스를 조회하여 달성 할 수 및 데이터 유형을 처리하지 않습니다.

 

5, 하이브 SQL과 같은, 그것은 표준 SQL하지 않습니다

 

하둡은 SQL --Apache 하이브와 HiveQL을 SQL과 같은 언어를 사용하지만 때문에 기존의 데이터 수집 도구의 대부분은 상대적으로 두통이다 SQL 기반의 비즈니스입니다.

 

Russom는 말했다 : "나는 종종 사람들이 말을 듣고,하지만 그 근본적인 도구는 SQL 문제와 호환가 해결되지 않는 '하이브, 배울 매우 간단 라인에 직접 하이브를 배웁니다.'."

 

Russom 호환성은 단기적인 문제라고 생각하지만, 하둡의 인기를 방해.

 

6, 하둡 맵리 듀스와 상호,하지만 상호 의존하지 않습니다

 

맵리 듀스는 초기 구글에 의해 개발 된 HDFS의 출현 이전과 출시했다. 또한, 이러한 클래스 MapR 같은 제조업체는 HDFS 지원없이 홍보 MapReduce의 기능의 다양성왔다.

 

그럼에도 불구하고, Russom은 좋은 보완을 생각한다. HDFS의 값이 도구 분산 파일 시스템에 적층 될 수에 대부분 반영됩니다.

 

7, MapReduce는 오히려 분석 자체보다, 분석을위한 제어를 제공한다

 

맵리 듀스는 구동, 빅 데이터 분석이 도움을 줄 수있는 보편적 인 실행 엔진입니다. 단일 컬렉션 결과 매핑 필기 자동 병렬 처리되는 데이터를 판독하고 코드와. 그러나 우리가 분명히해야 할, 맵리 듀스 자체 분석 작업을 수행하지 않습니다.

 

Russom는 "맵리 듀스는 상관없이, 매우 강력한를 병렬화 할 수있는 코드를 작성 무엇 MPP 아키텍처의 업그레이드 버전으로 볼 수 없다 .."

 

8, 하둡의 중요성뿐만 아니라 때문에 다양한 데이터, 데이터의 양뿐만 아니라있다

 

어떤 사람들은 하둡은 대용량 데이터 처리 기술 하둡으로 분류되지만 실제 값은 다양한 데이터 처리 능력이다.

 

Russom는 "가장 데이터웨어 하우스 하둡 처리 범위 완전히 구조화되지 않은 데이터, 예를 들어,보다 작은 반은 구조화하십시오."

 

9 하둡 상보 데이터웨어 하우스, 데이터웨어 하우스에 대한 대체되지이고

 

다양한 데이터 유형을 관리 할 수있는 하둡 능력은 모든 곳에서 연설을 "데이터웨어 하우스는 죽을 것이다"만들지 만, Russom는 반박하고있다.

 

그는 질문 : "사람들이 기술을 거의 절대 교체하지 빈도 IT 분야에서?"

 

아직 해결되지 않은 그 도메인 데이터웨어 하우스 성능, 하둡은 추가 데이터웨어 하우스 기술의 역할을 할 수있다. 스키마 데이터웨어 하우스 및 기타 시스템은 점점 분산, 하둡 여기에 역할을 담당 할 것입니다 가까이 이동하기 시작했다.

 

10, 하둡은 웹 분석하지 않습니다

 

인터넷의 하둡 사용은 매우 일반적입니다, Russom 부분적 때문에 분석의 많은 유형을 처리 할 수 ​​있기 때문에 하둡 동향의 인기를 생각합니다.

 

Russom는 철도 회사, 로봇과 소매의 예를 들었다. 철도 회사는 사고를 방지하기 위해, 비정상적으로 높은 온도 검출 차량을 추적하는 센서를 사용할 수있다.

 

Russom하지만, 하둡의 전망에 대해 비록 매우 낙관적도 인기가 여전히 몇 년이 걸릴 것으로 믿고있다.

 

11, 비 하둡 빅 데이터는 반드시 사용할 수없는

 

빅 데이터와 하둡이 불가분하게 연결되어 지금은 보지 마세요, Russom "은"하둡은 빅 데이터 아니라고 생각했다. 그는 너무 다른 공급 업체의 등 (SAP에 인수) 테라 데이타, 사이베이스 IQ와 (HP에 인수), Vertica의 같은 제품, 그리고 숫자를 언급했다.

 

또한, 출생 하둡의 부재에서, 일부 기업은 빅 데이터에 대한 연구를 시작했다. 예를 들어, 많은 년간 통신 업계는 상세 기록이 호출하기 전에.

 

12, 하둡은 "공짜 점심"아니다

 

하둡은 오픈 소스 기술에 속하지만하지만 설치 소프트웨어 배포는 돈을 지출 할 필요가있다. Russom 인해 하둡 관리 도구 및 지원 서비스의 부족, 기업이 쉽게 사용시 추가 비용이 발생할 수 있다고 말했다. 또한,이 프로그램을 최적화하지 않기 때문에, 우리는 런타임 환경에서 전문 필기 입력 코드를 요청할 수 있으며, 이러한 전문가들이 많은 돈을 위해 가격을 지불합니다.

저자는 강력하게 기사를 읽어 보시기 바랍니다 :

빅 데이터 엔지니어는 오픈 소스 도구 요약을 마스터해야합니다

빅 데이터 수석 가르쳐 어떻게 대용량 데이터의 핵심 기술을 읽는 방법

최고 빅 데이터 엔지니어는 기술을 마스터해야

8 개 큰 요인 데이터, 기계 학습 및 미래 개발을위한 인공 지능

추천

출처blog.csdn.net/sdddddddddddg/article/details/91348178