MapReduce para la eliminación de datos duplicados

fuente original:

https://www.toutiao.com/i6764933201203823107/

Concepto: "La deduplicación de datos" sobre todo para aprender y para llevar a cabo usando selección de datos significativos en paralelo de pensamiento. El número de tipos de datos estadísticos sobre grandes conjuntos de datos, tales como el cálculo de acceso a estas tareas aparentemente complejos están involucrados desde la duplicación de datos de registro del sitio.

El objetivo final es hacer que los datos de deduplicación de datos en bruto aparece más de una vez en los datos aparecen sólo una vez en el archivo de salida. Después de proceso de MapReduce, salida de mapa <clave, valor> aleatoria a través del proceso recogido en <clave, valor-lista> para reducir. Es natural pensar en todos los registros de los mismos datos tienen que reducir una máquina, no importa cuántas veces aparecen los datos, siempre y cuando la salida una vez en el resultado final de la misma. El hormigón es los datos de entrada para ser reducir como la clave, mientras que la lista de valores no es necesario (se puede ajustar a nulo). Cuando se recibe reducir un <clave, valor-list> para copiar la entrada de clave directamente a la salida de la llave, y el conjunto de valor a un valor nulo, entonces la salida <clave, valor>.

Si nuestras fuentes de datos son:

 

Objetivo: escribir programas MapReduce, de acuerdo con el comercio pesada de-id, que son productos de consumo en las estadísticas de usuarios.

Vamos a preparar para generar datos analógicos, escribir código Java

Crear un proyecto, paquete y la estructura de clases de la siguiente

 

Genera un número aleatorio

 

Genera una fecha aleatoria

 

Escribe IO

 

la generación de código de escritura

 

generación de los datos

 

proyecto Maven

 

archivo de configuración pom

 

 

 

Crear una duplicación de datos de clase

 

Mapa escribir y reducir

 

 

Embalaje Proyecto

 

Inicio Hadoop

 

la carga de datos

 

Los datos cargados en los HDFS

 

Realizar paquete frasco

tarro hilo /data/removal/removal-client.jar com.xlglvc.xxx.mapredece.removal.Removal /removalinput/data.txt / removaloutput

 

Consideramos que los resultados

 

 

Ejercicio: Podemos escribir una mapreduce, hay una serie de datos estadísticos?

 

Supongo que te gusta

Origin www.cnblogs.com/bqwzy/p/12528462.html
Recomendado
Clasificación