Cuenta de palabras de la primera instancia en ejecución de Hadoop

Citar:

Ha habido muchas cosas en las últimas semanas. No he escrito un blog durante dos semanas. Esta semana finalmente puse en funcionamiento la instancia de hadoop y luego ejecuté el ejemplo oficial de recuento de palabras (utilizado para contar la cantidad de apariciones de palabras en el archivo).
El siguiente es el registro de mi instancia en ejecución exitosa. La premisa de funcionamiento es instalar y configurar hadoop (puedes consultar mi blog anterior: registro de instalación pseudodistribuido de hadoop )

Pasos de operación:

1. Primero prepare un archivo que contenga palabras y luego cargue este archivo en el servidor Linux.
contenido del documento:

hello world hello hadoop
abc hadoop aabb hello word
count test hdfs mapreduce

2. Use el comando hdfs para crear un directorio de archivos de entrada (el comando hfds es básicamente el mismo que en Linux, puede ir al sitio web oficial para verificar) hadoop fs -mkdir / input / wordcount
y luego crear un directorio de salida / salida para el almacenamiento y operación posteriores de hadoop resultado

3. Luego, coloque el archivo en el sistema de archivos de hadoop. Hadoop fs -put / home / file1 / input / wordcount is
created, puede usar ls para verificar si el archivo existe hadoop fs -ls -R /

4. Luego ingrese share / hadoop / mapreduce de hadoop, hay un hadoop-mapreduce-examples-3.1.2.jar a
través de hadoop jar hadoop-mapreduce-examples-3.1.2.jar, puede ver este ejemplo oficial Los programas que se pueden ejecutar
son los siguientes:

Puede ver muchos programas integrados, aquí usamos el recuento de palabras.
Ejecutando una orden

hadop jar hadoop-mapreduce-examples-3.1.2.jar /input/wordcount /output/wordcount

Uno de los dos últimos parámetros es la ruta de entrada del archivo, que es la ruta que creamos antes de hdfs, y el segundo parámetro es la ruta de salida del archivo.
De lo contrario, Hadoop lo creará por sí mismo.
5. Luego, primero se llevará a cabo el proceso de mapa. En el proceso de reducción, aquí puede entenderse como el paso de dividir y conquistar. El mapa es el resultado intermedio de procesar archivos en múltiples máquinas, y luego los resultados se resumen a través de reducir (reducción, agregación).
Además, el mapa se ejecuta antes de que se ejecute la reducción.

6. Vaya al archivo de salida para ver el resultado, habrá tres archivos en salida / recuento de palabras, uno con parte es el resultado de salida, puede usar la ruta del archivo de salida hadoop fs -cat para ver el resultado

para resumir:

Aunque parece que no hay muchos pasos y el contenido es relativamente sencillo, todavía existen muchos escollos. Puntos a tener en cuenta:
1. Para el hadoop pseudodistribuido, el nombre de host debe estar configurado y ser consistente con el archivo de configuración. Si no funciona, especifique 127.0.0.1 directamente (lo resolví de esta manera de todos modos)
2. La configuración de memoria de yarn Razonable. Si es demasiado pequeño, siempre estará atascado en el enlace del trabajo en ejecución o atascado en el mapa 0%. En este momento, vaya al sitio de hilos para establecer el tamaño de la memoria (de acuerdo con la configuración de memoria del servidor real, lo configuré después de 2048M
Eso está bien ) 3. Si encuentra que está atascado en un determinado enlace, recuerde verificar los registros en el directorio de instalación de hadoop. Hay muchos tipos de registros, incluidos nodeManageer, resourceManager, etc., y la ejecución no funcionará. Habrá registros e indicaciones correspondientes en los registros. Puede ayudar a encontrar el problema.