4 MapReduce flujo de trabajo detallada

flujo de trabajo detallada MapReduce

A, el mecanismo de trabajo MapTask

Aquí Insertar imagen Descripción
El proceso global se puede resumir de la siguiente manera:

1, el cliente enviar trabajos al clúster, el tramo designado número n

2, iniciar el clúster de n maptask

3, maptask leer datos (k, v) por RecordReader, representante v de la línea de datos por la línea

4. Después de la lectura de la fila de datos por procesamiento lógico mapper fila

5, los datos procesados ​​en una nueva dispensación (k1, v1), se envía a la memoria intermedia de anillo por Context.write

6, los datos escritos en el búfer de anillo a diferentes particiones, y la clave para la clasificación de zona

7, cuando los alcances tampón anillo 80%, ponen los datos en el desbordamiento de memoria en un archivo, y el área de partición se ordena

8, la partición para cada archivo antes de la fusión, el nuevo archivo se divide y el área ordenada

Dos, el mecanismo de trabajo ReduceTask

[

El proceso global se puede resumir como sigue

1, de acuerdo con el número de partición MapTask última buenas particiones archivo de combinación de acuerdo a arrastrarse sobre

2, que trepar por los archivos juntos y ordenados según la clave

3, los datos ordenados de realizar una operación lógica para generar una nueva (k, v)

4, la salida

nota :

El tamaño del búfer de anillo afectará a la eficacia de la aplicación de MapReduce, porque cuanto mayor sea la memoria intermedia, menor será el número de io disco, lleve a cabo con mayor rapidez.

En tercer lugar, el mecanismo de trabajo Aleatorio

Aquí Insertar imagen Descripción
Después de que el método de mapa MapTask, antes de la operación métodos ReduceTask reducen llamados shuffle, barajar para que las operaciones básicas de MapReduce.

Publicado 42 artículos originales · ganado elogios 3 · Vistas 2047

Supongo que te gusta

Origin blog.csdn.net/stable_zl/article/details/105133173
Recomendado
Clasificación