Java cuenta de la palabra puesta en práctica

fuente original:

https://www.toutiao.com/i6764296608705151496/

Estadísticas palabra estadística es el número de veces que una palabra aparece en un documento, como por ejemplo las siguientes fuentes de datos

 

Entre ellos, el número eventual resultado debe ser la siguiente pantalla

 

Entonces, ¿cómo escribir código en MapReduce y parece resultar en última instancia?

En primer lugar, cargar archivos en el HDFS (DFS hdfs -poner ...)

Nombre de datos: datos.txt, el tamaño es el tamaño de 2G

amarillo rojo está representada por tres bloques almacenados en los datos de bloque

 

Data.txt datos de los mapas a continuación, entra en la fase, será <K, V> forma (KV en) entra, K se representa por: la primera letra de cada byte fila desplazada con respecto a la cabecera del archivo, V indica que cada fila texto.

 

La figura entonces se puede representar por: esfera ovalada azul representa un mapa, bloque de mapa de amarillo rojo al entrar en la etapa, los datos se deja en la forma de rojo <K, V> forma (par KV)

 

Después de mapa tratamiento, tal String.split ( ""), no un proceso, los datos siguientes se convertirán en formas KV en diferentes bloques de datos rojo amarillo

 

Nuestro número al configurar los ajustes de Hadoop reducir o, si hay dos reducen

datos de los mapas serán colocados en la ejecución de la correspondiente a reducir en la siguiente figura.

 

Este lugar tiene un principio simple que

Job.setNumReduce (2) reducir el número de conjuntos

Y el uso de la clase de resultado HashPartioner key.hashcode% a reducir, diferente resultado se introduce en un mapa diferente reducir, tales ae comenzando un solo lugar, al comienzo de la EZ un solo lugar, a continuación,

 

 

Tales resultados de los datos se harán

 

 

Bueno, entonces podemos contar en este momento, y empecé a escribir código

Primero creamos un proyecto de recuento de palabras, el proyecto que estamos creando un proyecto Maven

 

En donde la parte de configuración pom

 

 

 

Creamos una clase

 

La herencia Mapper (nota el comentario)

 

Escribir código

 

También crear WordCountReducer, escribir código, utilizando el anterior reducirá la comprensión ideológica

 

Crear una clase para escribir código WordCountDriver

 

tarro de proyecto de exportación

 

 

 

 

Empezamos Hadoop

 

Que pongamos los datos y el paquete jar

 

Carga de datos a los hdfs

 

Ejecute la siguiente instrucción

tarro bin / hilo /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt / outputwordcount

 

Hay algunos problemas, el tiempo no está sincronizado

 

herramienta de instalación Ntpdate

yum -y instalar ntpdate NTP

Establecer la hora del sistema sincronizado con el tiempo de la red

ntpdate cn.pool.ntp.org

 

A continuación, volver a ejecutar, esta vez elegir un nuevo directorio

tarro bin / hilo /data/wordCount/wordCount.jar com.xlglvc.xx.mapredece.wordcount_client.WordCountDriver /data.txt / outputwordcount1

 

Vamos a las consultas del navegador

 

Consideramos que el resultado final

bin / hdfs dfs -text / outputwordcount1 / parte-r-00000

 

Aparecen los resultados que queremos, estadísticas completas

 

Supongo que te gusta

Origin www.cnblogs.com/bqwzy/p/12528446.html
Recomendado
Clasificación