fuente original:
https://www.toutiao.com/i6764296608705151496/
Estadísticas palabra estadística es el número de veces que una palabra aparece en un documento, como por ejemplo las siguientes fuentes de datos
Entre ellos, el número eventual resultado debe ser la siguiente pantalla
Entonces, ¿cómo escribir código en MapReduce y parece resultar en última instancia?
En primer lugar, cargar archivos en el HDFS (DFS hdfs -poner ...)
Nombre de datos: datos.txt, el tamaño es el tamaño de 2G
amarillo rojo está representada por tres bloques almacenados en los datos de bloque
Data.txt datos de los mapas a continuación, entra en la fase, será <K, V> forma (KV en) entra, K se representa por: la primera letra de cada byte fila desplazada con respecto a la cabecera del archivo, V indica que cada fila texto.
La figura entonces se puede representar por: esfera ovalada azul representa un mapa, bloque de mapa de amarillo rojo al entrar en la etapa, los datos se deja en la forma de rojo <K, V> forma (par KV)
Después de mapa tratamiento, tal String.split ( ""), no un proceso, los datos siguientes se convertirán en formas KV en diferentes bloques de datos rojo amarillo
Nuestro número al configurar los ajustes de Hadoop reducir o, si hay dos reducen
datos de los mapas serán colocados en la ejecución de la correspondiente a reducir en la siguiente figura.
Este lugar tiene un principio simple que
Job.setNumReduce (2) reducir el número de conjuntos
Y el uso de la clase de resultado HashPartioner key.hashcode% a reducir, diferente resultado se introduce en un mapa diferente reducir, tales ae comenzando un solo lugar, al comienzo de la EZ un solo lugar, a continuación,
Tales resultados de los datos se harán
Bueno, entonces podemos contar en este momento, y empecé a escribir código
Primero creamos un proyecto de recuento de palabras, el proyecto que estamos creando un proyecto Maven
En donde la parte de configuración pom
Creamos una clase
La herencia Mapper (nota el comentario)
Escribir código
También crear WordCountReducer, escribir código, utilizando el anterior reducirá la comprensión ideológica
Crear una clase para escribir código WordCountDriver
tarro de proyecto de exportación
Empezamos Hadoop
Que pongamos los datos y el paquete jar
Carga de datos a los hdfs
Ejecute la siguiente instrucción
tarro bin / hilo /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt / outputwordcount
Hay algunos problemas, el tiempo no está sincronizado
herramienta de instalación Ntpdate
yum -y instalar ntpdate NTP
Establecer la hora del sistema sincronizado con el tiempo de la red
ntpdate cn.pool.ntp.org
A continuación, volver a ejecutar, esta vez elegir un nuevo directorio
tarro bin / hilo /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt / outputwordcount1
Vamos a las consultas del navegador
Consideramos que el resultado final
bin / hdfs dfs -text / outputwordcount1 / parte-r-00000
Aparecen los resultados que queremos, estadísticas completas