Tutorial de configuración pseudodistribuida de Hadoop

Tabla de contenido

1. Crear usuario de Hadoop

1. Crear usuario de Hadoop

2.Cambiar usuario

2. Actualice Apt, instale SSH y configure el inicio de sesión sin contraseña SSH.

1.Actualizar apto

2. Instalar SSH 

3. Configurar el inicio de sesión SSH sin contraseña

3. Instalar el entorno Java

4. Instale Hadoop 

1. Descargar Hadoop

2. Instale Hadoop

5. Configuración independiente de Hadoop (no distribuida)

6. Configuración pseudodistribuida de Hadoop

7. Ejecute una instancia pseudodistribuida de Hadoop


1. Crear usuario de Hadoop

1. Crear usuario de Hadoop

Ingrese el siguiente comando para crear un nuevo usuario:

sudo useradd -m hadoop -s /bin/bash

Este comando crea un usuario de hadoop que puede iniciar sesión y usa /bin/bash como shell.

47f314d41ccd47b99097682afd4369a8.png

Luego use el siguiente comando para establecer la contraseña. Simplemente puede configurarlo en hadoop. Ingrese la contraseña dos veces cuando se le solicite:

sudo passwd hadoop

3693b392714f4fa7a8aaba002ba93ab8.png

 Se pueden agregar permisos de administrador a los usuarios de hadoop para facilitar la implementación y evitar algunos problemas de permisos que son más difíciles para los principiantes:

sudo adduser hadoop sudo

c8f2efd6917c4da3a80f043cc794f59a.png

2.Cambiar usuario

Cierre la terminal, cierre la sesión del usuario actual y seleccione el usuario de Hadoop para iniciar sesión.

d41ea0bb599d4d5290d01aec61ba0be5.png

51b2187ccad6414f93faf574b5f3a31f.png

2. Actualice Apt, instale SSH y configure el inicio de sesión sin contraseña SSH.

1.Actualizar apto

Después de iniciar sesión como usuario de hadoop, primero actualizamos apt. Luego usamos apt para instalar el software. Si no se actualiza, es posible que parte del software no se instale. Presione Ctrl+Alt+T para abrir una ventana de terminal y ejecutar el siguiente comando:

sudo apt-get update

4e9fb7dd413b4b96b6b2f0a16b62c2c3.png

2. Instalar SSH 

Instale el servidor SSH y ejecute el siguiente comando:

sudo apt-get install openssh-server

Ingrese "Y" y presione Enter para continuar con la instalación. 

8dd80876bf5f4b0388e6aba9da871f86.png

Después de la instalación, puede utilizar el siguiente comando para iniciar sesión en la máquina:

ssh localhost

Ingrese "sí", luego ingrese la contraseña y presione Enter.6929e58a74254890be583e4361bb1e6a.png1438f2c52aac497c820cb9f1fee267a3.png0f50288cfad240d1bd562b5d42a60fe0.png

 3. Configurar el inicio de sesión SSH sin contraseña

Comience ingresando el siguiente código:

exit

Salga del ssh localhost ahora mismo

d641a6f97c2a4e2a83291b57d7dd2cb6.png

Ingrese el siguiente código:

cd ~/.ssh/ 

Ingrese al directorio ssh12e36f35d8ae4440b3ef78f4998d69b6.png

Ingrese el siguiente código:

ssh-keygen -t rsa 

Utilice ssh-keygen para generar claves

Cuando se le solicite, presione la tecla Enter

b0cd061ab64b46fcbf6fbfec4943fa0f.png

Ingrese el siguiente código:

cat ./id_rsa.pub >> ./authorized_keys

Agregar clave a la autorización015f9d28714f4ed08f67f666685e5ea8.png

En este momento, utilice el comando ssh localhost para iniciar sesión directamente sin ingresar una contraseña.

 ssh localhost

557dcfe39df74aba97784d030119f6da.png

3. Instalar el entorno Java

Ingrese el siguiente código para instalar Openjdk-8-jdk

sudo apt-get install openjdk-8-jdk

Ingrese "Y" y presione Enter para continuar con la instalación. 

05e750b34e0c4868b6f9f68c92fe3006.png

6faef1079a554b88ad05ea5bd5ea416c.pngIngrese el siguiente código para ver la versión de Java instalada

java -version

 e8ece2c370dc4854b2baae693258c64b.png

Ingrese el siguiente código para configurar el archivo de entorno Java

gedit ~/.bashrc

Agregue la siguiente línea al frente del archivo (tenga en cuenta que no puede haber espacios antes y después del signo igual "="), luego guarde y salga:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

a156f5a3273b4852ab57e0ba06527505.png

A continuación, para que las variables de entorno surtan efecto inmediatamente, ejecute el siguiente código:

source ~/.bashrc 

 5168f2760ef642a28ec569c4329eb076.png

Después de ejecutar el comando anterior, puede verificar si la configuración es correcta:

echo $JAVA_HOME   
java -version
$JAVA_HOME/bin/java -version

a86a22be78b3442ea6e2b821edcc6b72.png

4. Instale Hadoop 

1. Descargar Hadoop

Descargue Hadoop-3.2.4 usando el navegador Firefix integrado en el sistema Ubuntu

Dirección de descarga de Hadoop: Índice de /apache/hadoop/common/hadoop-3.2.4

afe79310e2ac44ee857dce1aba4ab1f0.png

2. Instale Hadoop

Ingrese el siguiente código: (tenga en cuenta que C debe estar en mayúscula)

sudo tar -zxf ~/下载/hadoop-3.2.4.tar.gz -C /usr/local

Descomprima e instale Hadoop en la carpeta /usr/local

Ingrese el siguiente código:

cd /usr/local/
sudo mv ./hadoop-3.2.4/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop 

Y cambie el nombre de la carpeta a hadoop y modifique los permisos del archivo.

1a4f1ddc49014d5f8dfaf1857e520726.pngIngrese el siguiente comando para verificar si Hadoop está disponible. Si tiene éxito, se mostrará la información de la versión de Hadoop:

cd /usr/local/hadoop
./bin/hadoop version

 2c00cd35b6384ed5826944a312003896.png

5. Configuración independiente de Hadoop (no distribuida)

Ejemplo de grep

Tome todos los archivos en la carpeta de entrada como entrada, filtre las palabras que coincidan con la expresión regular dfs[az.]+ y cuente el número de apariciones, y finalmente envíe los resultados a la carpeta de salida.

cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/*

14eb53907d83438cb3bd9744ecb02cac.png​ 8e5a772d0f0d47b186eb9403a02fe66a.png

 3a0714c13ca244999efe3bbb3d65311c.png

Hadoop no sobrescribe el archivo de resultados de forma predeterminada, por lo que ejecutar el ejemplo anterior nuevamente generará un error y deberá eliminarse  ./output primero.

rm -r ./output

6. Configuración pseudodistribuida de Hadoop

El archivo de configuración de Hadoop se encuentra en /usr/local/hadoop/etc/hadoop/. Para la pseudodistribución, es necesario modificar dos archivos de configuración, core-site.xml y hdfs-site.xml. El archivo de configuración de Hadoop está en formato xml y cada configuración se implementa declarando el nombre y el valor de la propiedad.

Modifique el archivo de configuración core-site.xml 

cd /usr/local/hadoop
gedit ./etc/hadoop/core-site.xml

Modifique a la siguiente configuración, haga clic en Guardar y salir:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

1af986560b0c458ba2f78619db788ad9.png

Modifique el archivo de configuración hdfs-site.xml

gedit ./etc/hadoop/hdfs-site.xml

Modifique a la siguiente configuración, haga clic en Guardar y salir:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

a8216b1f33254af8945855888e9dfc0c.png

Una vez completada la configuración, realice el formateo del NameNode:

./bin/hdfs namenode -format

8d460aee16d64176a6ca4bbe4da52cc2.png

Luego inicie los demonios NameNode y DataNode

./sbin/start-dfs.sh

5c6d3cdada9f4026853d95291cd84a42.png

Una vez completado el inicio, puede utilizar el comando jps para determinar si se inició correctamente.

jps

804de457c8084a0d81f4476d521db08d.png

Después de un inicio exitoso, puede acceder a la interfaz web http://localhost:9870 para ver la información de NameNode y Datanode, y también puede ver archivos en HDFS en línea. 

cf8ba580d2ae41caa765707e22c8ffcc.png

7. Ejecute una instancia pseudodistribuida de Hadoop

Para usar HDFS, primero debe crear un directorio de usuario en HDFS:

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir -p /user/hadoop

b2b208058abb4c0c953665e16f918fc3.png

Luego copie el archivo xml en ./etc/hadoop como un archivo de entrada al sistema de archivos distribuido, es decir, copie /usr/local/hadoop/etc/hadoop a /user/hadoop/input en el sistema de archivos distribuido

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

Una vez completada la copia, puede ver la lista de archivos mediante el siguiente comando:

./bin/hdfs dfs -ls input

 5d735d5cea4d4fa2b39889c48835c471.png

Tome todos los archivos en la carpeta de entrada como entrada, filtre las palabras que coincidan con la expresión regular dfs[az.]+ y cuente el número de apariciones, y finalmente envíe los resultados a la carpeta de salida.

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

611e5da14be34317a796f6e4a80d1190.png

Comando para ver los resultados de la ejecución (ver los resultados de salida ubicados en HDFS):

./bin/hdfs dfs -cat output/*

7b5c9c74a5d745d6b1b2b99f519afdcc.png

 Obtenga los resultados de la ejecución en el local:

rm -r ./output
./bin/hdfs dfs -get output ./output
cat ./output/*

Cuando Hadoop ejecuta el programa, el directorio de salida no puede existir; de lo contrario, se generará un error.

Por lo tanto, si desea ejecutarlo nuevamente, debe ejecutar el siguiente comando para eliminar la carpeta de salida:

./bin/hdfs dfs -rm -r output

Para cerrar Hadoop, ejecute:

./sbin/stop-dfs.sh

 9ccec17c26274cf58ba82076dfd09f15.png

Artículo de referencia: Tutorial de instalación de Hadoop_Configuración de máquina única/pseudodistribuida_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_Blog del Laboratorio de bases de datos de la Universidad de Xiamen

Supongo que te gusta

Origin blog.csdn.net/qq_33980756/article/details/130568379
Recomendado
Clasificación