Hadoop etapa de reproducción aleatoria

original:

https://www.toutiao.com/i6764683672772674062/

 

Antes de entrar en el Mapa, primero va a leer los datos de la HDFS, el proceso, de acuerdo con la cantidad de desplazamiento de bytes dicho antes esta forma de procesamiento es K, en la forma de una V, en la etapa de Mapa.

En donde InputFormat puede ser considerado relación de herencia de la clase, que llama por el método de lectura final, genera K, V de la entrada a los datos de mapa, mapa recibidos en este momento es la K, V de

 

Los datos a continuación, se recoge para OutputCollector (OutputCollector responsable de recoger mapa de salida K, V en)

 

Entonces entra en una memoria intermedia de anillo, un tamaño predeterminado del anillo tampón 100M por la configuración mr.sort.mb, almacenar grandes cantidades de K, V par, se puede considerar una lista enlazada circular,

 

A continuación, introduzca etapa de derrames

Cuando la cantidad de datos en la memoria alcanza un cierto umbral y que va a escribir datos en un disco local (desbordamiento por escrito al local), las necesidades de datos a ser una especie de operación de datos antes de que se escribe en el disco, si se configura el combinador, también tendrá el mismo número de particiones y clasificar los datos clave

Todos los archivos temporales de desbordamiento operación de combinación de una vez, para asegurar que sólo un MapTask en última instancia, producir un archivo de datos intermedios

 

Reducir luego entra en la fase de datos (figura amarilla se última instancia, reducir)

 

Supongo que te gusta

Origin www.cnblogs.com/bqwzy/p/12528451.html
Recomendado
Clasificación