original:
https://www.toutiao.com/i6764683672772674062/
Antes de entrar en el Mapa, primero va a leer los datos de la HDFS, el proceso, de acuerdo con la cantidad de desplazamiento de bytes dicho antes esta forma de procesamiento es K, en la forma de una V, en la etapa de Mapa.
En donde InputFormat puede ser considerado relación de herencia de la clase, que llama por el método de lectura final, genera K, V de la entrada a los datos de mapa, mapa recibidos en este momento es la K, V de
Los datos a continuación, se recoge para OutputCollector (OutputCollector responsable de recoger mapa de salida K, V en)
Entonces entra en una memoria intermedia de anillo, un tamaño predeterminado del anillo tampón 100M por la configuración mr.sort.mb, almacenar grandes cantidades de K, V par, se puede considerar una lista enlazada circular,
A continuación, introduzca etapa de derrames
Cuando la cantidad de datos en la memoria alcanza un cierto umbral y que va a escribir datos en un disco local (desbordamiento por escrito al local), las necesidades de datos a ser una especie de operación de datos antes de que se escribe en el disco, si se configura el combinador, también tendrá el mismo número de particiones y clasificar los datos clave
Todos los archivos temporales de desbordamiento operación de combinación de una vez, para asegurar que sólo un MapTask en última instancia, producir un archivo de datos intermedios
Reducir luego entra en la fase de datos (figura amarilla se última instancia, reducir)