좋은 프로그래머는 대용량 데이터를 제출 맵리 듀스 작업 흐름을 공유

좋은 프로그래머는 대용량 데이터 공유 제출 맵리 듀스 작업 흐름을

A, 맵리 듀스 정의

MapReduce의 큰 데이터 처리 프레임과 인터넷 병렬 컴퓨팅 모델이다.

주요 아이디어는 : 지도 (맵)와 감소 (감소)

1)의 MapReduce 클러스터 기반의 고성능 병렬 컴퓨팅 플랫폼은

2) MapReduce의 병렬 계산을 실행하는 소프트웨어 프레임 워크는

3)의 MapReduce 프로그래밍 모델은 병렬 방법이며

두, 맵리 듀스 주요 기능 :

두, 맵리 듀스 주요 기능

1) 계산 태스크 스케줄링 및 데이터 파티셔닝

2) 데이터 의 상호 위치 결정 / 코드

3) 시스템 최적화

4) 에러 검출 및 복구

, 컴퓨팅 작업 제출 된 작업 과정

이 배울 수있는 시간에, 우리는 몇 가지 문제에 직면하게 될 것이다 :

1) 먼저, 직면 한 문제는 데이터가 분산되는 방법인가?

2) 방법의 종류에 따라 큰 파일을 잘라 다른 시스템에 빠졌다?

3) 어떤 방법을 절단 한 후, 서로 다른 머신을 던져하는 방법은?

4) 기계 작업에 배정 무엇? 어떻게 할당?

5) 어떻게 작업을 해결하기 위해 얻으려면?

이러한 질문에, 우리는에 대해 배울 필요가 우리의 문제에 대한 답을 찾는 과정에서 제출 과정 작업.

다음과 같이 작업 특정 제출 과정, 우리는 요약 단어를 사용 :

하나는 클라이언트가 제출 ResourceManager에 (RM)에 작업을.

2, RM은 대기열을 넣어 작업 ID 파일 경로 정보를 반환합니다.

3, 필요한 클라이언트 컴퓨팅 자원, 업로드 (작업 정보 및 단편 정보 포함) HDFS 저장 경로를.

4, 클라이언트가 대기열에 RM에게 준비 자원 정보, 작업을 반환, 그는 작업을 시작 RM 스케줄링을 위해 기다릴 수 그에게 말했다.

5, 예약 전에 RM은 리소스 요청 nodemanager (㎚)을, 나노 컨테이너 시작이 리소스 취득 HDFS 컨테이너 작업을 수신하고 리소스 요구가 산출 된 클라이언트와 상호 작용하는 클라이언트를 보내기 시작 applicationmaster (오전) 명령.

6 일 후, 프래그먼트 정보를 파싱하여 오전 애플리케이션 컴퓨팅 자원 (MapTask) RM을 시작한다.

7, RM가 필요한로드 밸런싱 머신을 통해 정보보기 nm의 자원을 받기 위해, 나노마다 하트 비트는 기계가 HDFS에서 작업을 데리러 수신 된 메시지에서 자신의 작업 설명 정보에 할당 된 작업을 조회 자원을 계산하고, 오전과 상호 작용은 maptask을 시작하는 명령을 전송하고 있습니다.

8, Maptask, 알림 오전 종료 후, 다음, maptask 자원을 해제, 자원 reducetask의 응용 프로그램을 RM은에 메시지를 보낸다.

9, 자원의 RM 할당, 그것은 reducetask을 시작합니다.

10 reducetask의 maptask 시동 로직을 줄이고, 데이터 수집을 완료했다. 실행, 알림 오전 한 후, 다음 자원 reducetask를 놓습니다. 나는 RM 통지입니다. 최대 무료 자원입니다.

추천

출처www.cnblogs.com/gcghcxy/p/10980290.html