Python + Spark2.0 + Hadoop MapReduce estudio señala --Hadoop

MapReduce es un modo de desarrollo de programas, utilizando una serie de procesamiento en paralelo al servidor. MapReduce, es la distribución de empleo Mapa, Reducir resumen de los resultados de la orden de trabajo.

Entre este WordCount a modo de ejemplo, aparece cada archivo de la palabra Inglés el número de cálculos.

1) Crear un directorio de recuento de palabras

mkdir -p ~ / recuento de palabras / entrada

cd ~ / wordcount

Uso sudo gedit WordCount.java para editar el documento.

2) Compilar WordCount.java

sudo gedit ~ / .bashrc

A continuación, añadir perfiles

Deje ~ / .bashrc configuración sea efectiva

source ~ / .bashrc

A continuación, iniciar la compilación

hadoop com.sun.tools.javac.Main WordCount.java

jar cf wc.jar WordCount * .class

3) Crear un archivo de texto de prueba

cp /usr/local/hadoop/LICENSE.txt ~ / recuento de palabras / entrada

ll ~ / recuento de palabras / entrada

A continuación, iniciar todos los servidores virtuales

Iniciar el clúster

start-all.sh

Subir archivo de prueba al directorio HDFS

hadoop fs -mkdir -p / usuario / wordcount / entrada

Cambiar al directorio ~ / recuento de palabras / entrada

cd ~ / recuento de palabras / entrada

Cargar un archivo de texto para los HDFS

hadoop fs -copyFromLocal license.txt / user / wordcount / entrada

lista de archivos HDFS

hadoop fs -ls / user / wordcount / entrada

4) Ejecutar WordCount.java

Cambie el directorio

cd ~ / wordcount

ejecución del programa WordCount

hadoop tarro wc.jar WordCount /user/wordcount/input/LICENSE.txt / user / wordcount / salida

5) Comprobar los resultados operativos

Ver directorio de HDFS

hadoop fs -ls / user / wordcount / salida

Ver el contenido del archivo de salida en HDFS

hadoop fs -gato / usuario / recuento de palabras / salida / parte-r-00000 | más

la ejecución del programa WordCount de nuevo por favor, elimine el directorio de salida

hadoop fs -rm -R / usuario / wordcount / salida

MapReduce de Hadoop no es muy buena, aquí brevemente.

Python + Spark2.0 + Hadoop MapReduce estudio señala --Hadoop

Supongo que te gusta