Aprendizaje de entrada Hadoop acabado (2)

2020-04-15

En el artículo anterior, presenté la instalación de la máquina virtual Linux, la instalación y configuración de Hadoop, aquí está el contenido del artículo anterior, una breve introducción y un uso simple de Hadoop.

 

1. Primero entienda el directorio de Hadoop:

( 1 ) directorio bin : almacena scripts que operan en servicios relacionados con Hadoop ( HDFS, YARN )

( 2 ) etc directorio: Hadoop directorio de archivos de configuración, almacenado Hadoop fichero de configuración

( 3 ) directorio lib : almacena la biblioteca local de Hadoop (comprime y descomprime datos)

( 4 ) directorio sbin : almacena scripts para iniciar o detener servicios relacionados con Hadoop

( 5 ) informan este contenido cuota de directorio: el almacenamiento Hadoop dependiente tarro de paquete , el documento , y el caso oficial

 

2. Comprenda el modo de operación de Hadoop :

Hadoop incluye 3 modos de instalación
(1) Modo independiente. Solo se ejecuta en una máquina, el almacenamiento adopta el sistema de archivos local y no adopta el sistema de archivos distribuidos HDFS
(2) Modo pseudodistribuido. El almacenamiento adopta el sistema de archivos distribuido HDFS, pero el nodo de nombre y el nodo de datos de HDFS están en la misma máquina
(3) Modo distribuido. El almacenamiento utiliza un sistema de archivos distribuido HDFS, y el nodo de nombre y el nodo de datos de HDFS se encuentran en diferentes máquinas.
 

Después de instalar Hadoop en una máquina virtual Linux, el modo predeterminado es el modo independiente y puede ejecutarse sin configuración adicional.

Si desea que Hadoop se ejecute sin problemas en modo pseudodistribuido, debe configurar los archivos relacionados.

 

Modo seudodistribuido:

Hadoop puede ejecutarse de manera pseudodistribuida en un solo nodo (una máquina), y el mismo nodo actúa como un nodo de nombre (Name Node),

También como un nodo de datos (Nodo de datos), lee los archivos en el sistema de archivos distribuido HDFS.

  

3. Modificación de la configuración del modo pseudodistribuido

El archivo de configuración de Hadoop se encuentra en hadoop / etc / hadoop /. Cuando se configura en modo pseudo distribuido, se deben modificar dos archivos de configuración, a saber, core-site.xml y hdfs-site.xml.
Puede usar el editor vim para abrir el archivo core-site.xml.

 

( A ) Configuración: hadoop-env.sh

 

Obtenga la ruta de instalación de JDK en el sistema Linux : 

[guan @ hadoop101 ~] # echo $ JAVA_HOME

 

/opt/module/jdk1.8.0_144

 

Modifique la ruta JAVA_HOME : 

export JAVA_HOME = / opt / module / jdk1.8.0_144

 

( B ) Colocación: core-site.xml 

<! - Especifica el HDFS en NameNode dirección ->

<propiedad>

  <name> fs.defaultFS </name>

  <valor> hdfs: // hadoop101: 9000 </value>

</property>

 

<! - Especifica el directorio de almacenamiento de archivos generados cuando Hadoop se está ejecutando- >

<propiedad>

  <name> hadoop.tmp.dir </name>

  <value> /opt/module/hadoop-2.7.2/data/tmp </value>

</property>

 

( C ) Configuración: hdfs-site.xml

 

<! - Especifique el número de copias HDFS- >

<propiedad>

  <name> dfs.replication </name>

  <value> 1 </value>

</property>

 

 

Después de modificar el archivo de configuración, formatee el nodo de nombre. El comando es el siguiente:

 

[guan @ hadoop101 hadoop-2.7.2] $ bin / hdfs namenode -format

[Nota] Formatee la primera vez que lo inicie, no siempre lo formatee más tarde.

Si desea formatear, antes de formatear:

  1. Compruebe si los procesos NameNode y DataNode están desactivados. (Debe estar apagado)

    Comando de apagado: sbin / hadoop-daemon.sh stop namenode

           sbin / hadoop-daemon.sh stop datanode

    2. Eliminar / datos y / registros

     3. Formato NameNode

 

 

4. Inicie un clúster seudodistribuido

 

(A) Start NameNode

 

[atguigu @ hadoop101 hadoop-2.7.2] $ sbin / hadoop-daemon.sh start namenode

 

( B ) Iniciar DataNode

 

[atguigu @ hadoop101 hadoop-2.7.2] $ sbin / hadoop-daemon.sh start datanode

 

( C ) Verifique si el inicio es exitoso

 

[atguigu @ hadoop101 hadoop-2.7.2] $ jps 

13586 NameNode

 

13668 DataNode

 

13786 Jps

 

Nota : jps es un comando en el JDK , no un comando de Linux . No se puede usar jps sin instalar JDK

También puede iniciar el clúster: sbin / start-dfs.sh

 

5. Use la interfaz web para ver información HDFS

Después de que Hadoop se inicie correctamente, puede abrir un navegador en el sistema Linux (no en el sistema Windows),

Ingrese la dirección http: // localhost: 50070 en la barra de direcciones para ver el nombre del nodo y la información del nodo de datos. También puede ver los archivos en HDFS en línea.

 

6. Cerrar Hadoop

    Ejecute el comando /sbin/stop-dfs.sh

 

Supongo que te gusta

Origin www.cnblogs.com/guan-zl/p/12709640.html
Recomendado
Clasificación