Clúster de nodo único de Hadoop

Clúster de nodo único de Hadoop

  • Hadoop Single Node Cluster solo usa una máquina para crear un entorno Hadoop, pero aún puede usar comandos de Hadoop, pero no puede aprovechar el poder de usar varias máquinas.
  • Como solo hay un servidor, todas las funciones se concentran en un servidor.

Instalar JDK

  • Hadoop está desarrollado en base a Java, por lo que primero se debe instalar el entorno Java.
  • Haga clic en "Terminal" e ingrese el siguiente código para ver la versión de Java
java -version
  • JDK: kit de desarrollo de Java, kit de desarrollo de software en lenguaje Java
    Ver versión de Java

  • En Linux, puede usar apt para administrar paquetes de software y también puede usar apt-get para descargar e instalar paquetes (o suites) de software. Aquí usaremos apt-get para instalar jdk.

  • Sin embargo, antes de la instalación, debe ejecutar apt-get update para obtener la última versión del paquete. Este comando se conectará al servidor APT y actualizará la información más reciente del paquete de software.

  • Para ejecutar apt-get, debe tener permisos de superusuario (superusuario), pero los permisos de superusuario son muy grandes. Por razones de seguridad, generalmente no iniciamos sesión en el sistema como superusuario durante la operación. Podemos agregar el comando sudo antes del comando, y el sistema solicitará la contraseña de superusuario (la contraseña ingresada durante la instalación), para que podamos obtener permisos de superusuario.

  • Ingrese el siguiente comando en "Terminal"

sudo apt-get update
  • Luego ingrese la contraseña

introducir la contraseña

  • misión completada

misión completada

  • Instale JDK usando apt-get
  • Ingrese el siguiente comando en "Terminal"
sudo apt-get install default-jdk

Insertar descripción de la imagen aquí

  • Ingrese "Y" primero y luego presione Enter.
  • misión completada
    Insertar descripción de la imagen aquí
  • Utilice el siguiente comando nuevamente para ver la versión de Java
java -version
  • Cuando el sistema responde con la versión de Java instalada, significa que el JDK se ha instalado correctamente.
    Significa que el JDK se ha instalado correctamente.
  • Consultar ruta de instalación de Java
update-alternatives --display java

Configurar el inicio de sesión SSH sin contraseña

  • Hadoop se compone de muchos servidores. Cuando iniciamos el sistema Hadoop, el NameNode debe conectarse al DataNode y administrar estos nodos (DataNode). En este punto el sistema le pedirá al usuario que ingrese una contraseña. Para que el sistema funcione sin problemas sin ingresar una contraseña manualmente, es necesario configurar SSH para iniciar sesión sin contraseña.
  • Tenga en cuenta que el inicio de sesión sin contraseña no requiere una contraseña, sino que utiliza la clave SSH (clave) intercambiada de antemano para la autenticación.
  • Hadoop utiliza una conexión SSH (Secure Shell), que actualmente es un protocolo de seguridad relativamente confiable proporcionado especialmente para el inicio de sesión remoto en otros servidores. Todos los datos transmitidos se cifran a través de SSH. El uso del protocolo SSH puede evitar la fuga de información al administrar el sistema de forma remota.

Instalar SSH

  • Ingrese el siguiente comando en "Terminal"
sudo apt-get install ssh

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Instalar rsync

  • Ingrese el siguiente comando en "Terminal"
sudo apt-get install rsync

Insertar descripción de la imagen aquí

  • Ingrese el siguiente comando en "Terminal"
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

Generar archivo de clave

Ver la clave generada

  • La clave SSH se generará en el directorio raíz del usuario, que es /home/hduser
  • Ingrese el siguiente comando en "Terminal"
ll ~/.ssh

Insertar descripción de la imagen aquí

Coloque la clave generada en el archivo de licencia

  • Para poder iniciar sesión en la máquina sin contraseña, debemos agregar la clave pública generada al archivo de licencia.
  • Ingrese el siguiente comando en "Terminal"
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  • El formato del comando de función adicional de redirección de salida de Linux es el siguiente
  • Comando>>Archivo
  • El símbolo de redirección ">>" redirigirá la salida estándar (stdout) generada después de ejecutar el comando y la agregará al archivo.
  • Si el archivo no existe, primero se creará un archivo nuevo y luego el contenido de la salida estándar (stdout) se almacenará en este archivo.
  • Si el archivo ya existe, los datos de salida estándar (stdout) se agregarán al contenido del archivo sin sobrescribir el contenido del archivo original.

Descargar e instalar Hadoop

  • Inicie sesión en la página de descarga del sitio web oficial de Hadoop

https://archive.apache.org/dist/hadoop/common/

Insertar descripción de la imagen aquí

  • DescargarHadoop

Insertar descripción de la imagen aquí

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

  • Ingrese wget y la barra espaciadora en la "terminal", y luego pegue el enlace copiado antes
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
  • Descomprimir hadoop 2.6
  • Ingrese el siguiente comando en "Terminal"
sudo tar -zxvf hadoop-2.6.0.tar.gz
  • Mueva el directorio hadoop2.6.0 a /usr/local/hadoop
sudo mv hadoop-2.6.0 /usr/local/hadoop

Descargue e instale Hadoop (Método 2)

  • Resuelve el problema del largo tiempo de descarga.
  • Inicie sesión en el sitio espejo del software de código abierto de la Universidad de Tsinghua:

https://mirrors.tuna.tsinghua.edu.cn/

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

  • Ingrese wget y la barra espaciadora en la "terminal", y luego pegue el enlace copiado antes
wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable2/hadoop-2.10.1.tar.gz --no-check-certificate

Insertar descripción de la imagen aquí

  • Descarga completa
    Insertar descripción de la imagen aquí
  • Desempaquetar Hadoop 2.10.1
  • Ingrese el siguiente comando en "Terminal"
sudo tar -zxvf hadoop-2.10.1.tar.gz

Insertar descripción de la imagen aquí

  • Mueva el directorio hadoop2.6.0 a /usr/local/hadoop
sudo mv hadoop-2.10.1 /usr/local/hadoop

Insertar descripción de la imagen aquí

Verifique el directorio de instalación de Hadoop /usr/local/hadoop

  • Ingrese el siguiente comando en "Terminal"
ll /usr/local/hadoop

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Establecer variables de entorno de Hadoop

  • Se deben configurar muchas variables de entorno para ejecutar hadoop, pero sería problemático si tuvieran que restablecerse cada vez que iniciaran sesión. Por lo tanto, puede configurar la variable de entorno para que se ejecute automáticamente cada vez que inicie sesión en el archivo ~/.bashrc.
  • Editar ~/.bashrc
  • Ingrese el siguiente comando en "Terminal"
sudo gedit ~/.bashrc
  • Agregue lo siguiente al final del archivo abierto:
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
  • Una vez completada la edición, guárdela primero y luego salga.
    Insertar descripción de la imagen aquí

Explicación de lo anterior

  • Establecer la ruta de instalación de JDK

exportar JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

  • Establezca HADOOP_HOME en la ruta de instalación de Hadoop/usr/local/Hadoop

exportar HADOOP_HOME=/usr/local/Hadoop

  • Establecer RUTA

exportar RUTA= RUTA: RUTA:CAMINO _ _ _: HADOOP_HOME/bin export
RUTA =RUTA : RUTA:CAMINO _ _ _: HADOOP_HOME/sbin

  • Establecer otras variables de entorno HADOOP

exportar HADOOP_MAPRED_HOME= HADOOPHOME exportar HADOOPCOMMONHOME = HADOOP_HOME exportar HADOOP_COMMON_HOME=H A D OO PhOME e x p o t H A D OO PCOMM NhOME= HADOOP_HOME exportar HADOOP_HDFS_HOME=HADOOPHOME exportar YARNHOME = HADOOP_HOME exportar YARN_HOME=H A D OO PhOME e x p o r t Y A R NhOME= HADOOP_HOME

  • Configuraciones relacionadas con la biblioteca de enlaces

exportar HADOOP_COMMON_LIB_NATIVE_DIR= HADOOPHOME / lib / nativeexport HADOOPOPTS = " − D java . biblioteca . ruta = HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=H A D OO PhOME / lib / na t i v ee x p o t H A D OO P _OPTS="D ja v a . biblioteca . _ _ _ _ camino _ _ _= HADOOP_HOME/lib" exportar
JAVA_LIBRARY_PATH=HADOOPHOME/lib/native: HADOOP_HOME/lib/native:H A D OO PhOME / lib / na t i v e _: JAVA_LIBRARY_PATH

Dejar que la configuración ~/.bashrc surta efecto

  • Después de modificar /.bashrc, cierre sesión en el sistema y luego inicie sesión nuevamente para que la configuración surta efecto, o use el comando fuente para que la configuración de /.bashrc surta efecto.

  • Ingrese el siguiente comando en "Terminal"

source ~/.bashrc

Insertar descripción de la imagen aquí

Editar Hadoop-env.sh

  • hadoop-env.sh es el archivo de configuración de hadoop, donde se debe establecer la ruta de instalación de Java.
  • Ingrese el siguiente comando en "Terminal"
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
  • La configuración de JAVA_HOME en el archivo original es:

exportar JAVA_HOME=${JAVA_HOME} modificado a:

exportar JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64

  • Guarde y cierre el archivo después de las modificaciones.
    Insertar descripción de la imagen aquí

Establecer core-site.xml

  • Ingrese el siguiente comando en "Terminal"
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
  • Establecer el nombre predeterminado de HDFS
<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>
  • Guarde y cierre el archivo después de las modificaciones.
  • En core-site.xml, debemos configurar el nombre predeterminado de HDFS. Este nombre se puede usar cuando se usan comandos o programas para acceder a HDFS.
    Insertar descripción de la imagen aquí

Editar hilo-site.xml

  • El archivo Yarn-site.xml contiene ajustes de configuración relacionados con MapReduce2 (YARN).
  • Ingrese el siguiente comando en "Terminal"
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
  • Editar la configuración del sitio de hilo
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
  • Guarde y cierre el archivo después de las modificaciones.

Insertar descripción de la imagen aquí

Establecer mapred-site.xml

  • mapred-site.xml se utiliza para configurar y monitorear la asignación de tareas de JobTracker y el estado de ejecución de las tareas de TaskTracker de los programas Map y Reduce. Hadoop proporciona archivos de plantilla establecidos, que usted mismo puede copiar y modificar.
  • Ingrese el siguiente comando en la "Terminal" para copiar el archivo de plantilla: de mapred-site.xml.template a mapred-site.xml
sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

Insertar descripción de la imagen aquí

Editar mapred-site.xml

  • Ingrese el siguiente comando en "Terminal"
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
  • Edite la configuración de mapred-site.xml
<property>
 <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>
  • Guarde y cierre el archivo después de las modificaciones.

Insertar descripción de la imagen aquí

Editar hdfs-site.xml

  • hdfs-site.xml se utiliza para configurar el sistema de archivos distribuido HDFS
  • Ingrese el siguiente comando en "Terminal"
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
  • Introduzca la siguiente
<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>
<property>
   <name>dfs.namenode.name.dir</name>
   <value> file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
   <name>dfs.datanode.data.dir</name>
   <value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
  • Guarde y cierre el archivo después de las modificaciones.

Insertar descripción de la imagen aquí

  • Explicación de lo anterior
  • Establecer el número de copias de seguridad de bloques
<property>
   <name>dfs.replication</name>
   <value>3</value>
</property>
  • Establecer el directorio de almacenamiento de datos de NameNode
<property>
   <name>dfs.namenode.name.dir</name>
   <value> file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
  • Establecer el directorio de almacenamiento de datos de DataNode
<property>
   <name>dfs.datanode.data.dir</name>
   <value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>

Crear y formatear directorios HDFS

  • Crear directorio de almacenamiento de datos NameNode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
  • Crear directorio de almacenamiento de datos de DataNode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
  • Cambie el propietario del directorio Hadoop a hduser
sudo chown hduser:hduser -R /usr/local/hadoop
  • Linux es un sistema operativo multitarea y para varias personas, y todos los directorios o archivos tienen propietarios. Utilice chown para cambiar el propietario de un directorio o archivo a hduser.

Insertar descripción de la imagen aquí

Formatear HDFS

  • Ingrese el siguiente comando en "Terminal"
hadoop namenode -format
  • Nota: Si su HDFS ya tiene datos, puede ejecutar el comando de formato HDFS anterior. Esta operación eliminará todos los datos.

Insertar descripción de la imagen aquí

Iniciar Hadoop

  • Método 1: inicie HDFS y YARN respectivamente, use start-dfs.sh para iniciar HDFS y start-yarn.sh para iniciar YARN
  • Método 2: inicie HDFS y YARN al mismo tiempo, use start-all.sh

Iniciar HDFS

start-dfs.sh

Insertar descripción de la imagen aquí

Iniciar hilo

start-yarn.sh

Insertar descripción de la imagen aquí

Compruebe si los procesos NameNode y DataNode están iniciados

  • Ingrese el siguiente comando en "Terminal"
jps

Insertar descripción de la imagen aquí

HDFS: NameNode, NameNode secundario, DataNode
MapReduce2 (YARN): ResourceManager, NodeManager

Interfaz web del Administrador de recursos de Hadoop

  • Ingrese la siguiente URL en el navegador dentro de la máquina virtual

http://localhost:8088/
Insertar descripción de la imagen aquí
Debido a que está instalado el clúster de nodo único, actualmente solo hay un nodo.

Insertar descripción de la imagen aquí

Interfaz web NameNode HDFS


Ingrese la siguiente URL http://localhost:50070/ en el navegador dentro de la máquina virtual

Insertar descripción de la imagen aquí

Ver nodos en vivo

Insertar descripción de la imagen aquí

Ver nodos de datos

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m0_53256878/article/details/129655401
Recomendado
Clasificación