Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

Introducción

Si la instalación del entorno hadoop independiente anterior no es suficiente para usted, la versión agrupada de hadoop definitivamente se adaptará a su apetito y comenzará fácilmente.

Tabla de contenido

  1. Planificación de clústeres
  2. Condición previa
  3. Configurar inicio de sesión sin contraseña

    3.1 Generar clave

    3.2 Inicio de sesión sin contraseña

    3.3 Verificar el inicio de sesión sin contraseña

  4. Construcción de clústeres

    4.1 Descargar y descomprimir

    4.2 Configurar variables de entorno

    4.4 Modificar configuración

    4.4 Programa de distribución

    4.5 Inicialización

    4.6 Iniciar el clúster

    4.7 Ver clúster

  5. Enviar servicio al clúster

1. Planificación de agrupaciones

Aquí hay un clúster de Hadoop de tres nodos,
donde se implementan tres hosts con los servicios DataNode y NodeManager ,
pero solo los servicios NameNode y ResourceManager se implementan en hadoop001.

Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

2. Requisito

El funcionamiento de Hadoop depende de JDK, que debe instalarse de antemano. Los pasos de instalación están organizados por separado para:

2.1 Descargar y descomprimir

Descargue la versión requerida de JDK 1.8 en el sitio web oficial y descomprímalo después de descargarlo:

[root@ java]# tar -zxvf jdk-8u201-linux-x64.tar.gz
2.2 Establecer variables de entorno
[root@ java]# vi /etc/profile

Agregue la siguiente configuración:

export JAVA_HOME=/usr/java/jdk1.8.0_201  
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

Ejecute el comando de origen para que la configuración surta efecto de inmediato:

[root@ java]# source /etc/profile
2.3 Verifique si la instalación es exitosa
[root@ java]# java -version

Si se muestra la información de la versión correspondiente, la instalación se realizó correctamente.

java version "1.8.0_201"
Java(TM) SE Runtime Environment (build 1.8.0_201-b09)
Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)

3. Configure el inicio de sesión sin contraseña

3.1 Generar clave

Utilice el comando ssh-keygen en cada host para generar un par de claves privadas de clave pública:

3.2 Inicio de sesión sin contraseña

Escriba la clave pública de hadoop001 en el archivo ~ / .ssh / allowed_key de la máquina local y la máquina remota:

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop001
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop002
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop003
3.3 Verificar el inicio de sesión sin contraseña
ssh hadoop002
ssh hadoop003

4. Construcción de conglomerados

4.1 Descargar y descomprimir

Descarga Hadoop. Aquí descargué la versión CDH de Hadoop,

下载地址为:
http://archive.cloudera.com/cdh5/cdh/5/

# tar -zvxf hadoop-2.6.0-cdh5.15.2.tar.gz 
4.2 Configurar variables de entorno

Edite el archivo de perfil:

Agregue la siguiente configuración:

export HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh5.15.2
export  PATH=${HADOOP_HOME}/bin:$PATH

Ejecute el comando de origen para que la configuración surta efecto de inmediato:

4.3 Modificar configuración

Ingrese el directorio $ {HADOOP_HOME} / etc / hadoop y modifique el archivo de configuración. El contenido de cada archivo de configuración es el siguiente:

  1. hadoop-env.sh
    # 指定JDK的安装位置
    export JAVA_HOME=/usr/java/jdk1.8.0_201/
  2. core-site.xml
    <configuration>
    <property>
        <!--指定 namenode 的 hdfs 协议文件系统的通信地址-->
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop001:8020</value>
    </property>
    <property>
        <!--指定 hadoop 集群存储临时文件的目录-->
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    </configuration>
  3. hdfs-site.xml
    <property>
      <!--namenode 节点数据(即元数据)的存放位置,可以指定多个目录实现容错,多个目录用逗号分隔-->
    <name>dfs.namenode.name.dir</name>
    <value>/home/hadoop/namenode/data</value>
    </property>
    <property>
      <!--datanode 节点数据(即数据块)的存放位置-->
    <name>dfs.datanode.data.dir</name>
    <value>/home/hadoop/datanode/data</value>
    </property>
  4. yarn-site.xml
    <configuration>
    <property>
        <!--配置 NodeManager 上运行的附属服务。需要配置成 mapreduce_shuffle 后才可以在 Yarn 上运行 MapReduce 程序。-->
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <!--resourcemanager 的主机名-->
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop001</value>
    </property>
    </configuration>
  5. mapred-site.xml
    <configuration>
    <property>
        <!--指定 mapreduce 作业运行在 yarn 上-->
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    </configuration>
  6. los esclavos
    configuran los nombres de host o las direcciones IP de todos los nodos esclavos, uno por línea. Se iniciará el servicio DataNode y el servicio NodeManager en todos los nodos esclavos.
    hadoop001
    hadoop002
    hadoop003
4.4 Programa de distribución

Distribuya el paquete de instalación de Hadoop a los otros dos servidores Después de la distribución, se recomienda configurar las variables de entorno de Hadoop en los dos servidores.

# 将安装包分发到hadoop002
scp -r /usr/app/hadoop-2.6.0-cdh5.15.2/  hadoop002:/usr/app/
# 将安装包分发到hadoop003
scp -r /usr/app/hadoop-2.6.0-cdh5.15.2/  hadoop003:/usr/app/
4.5 Inicialización

Ejecute el comando de inicialización de namenode en Hadoop001:

hdfs namenode -format
4.6 Iniciar el clúster

Vaya al directorio $ {HADOOP_HOME} / sbin de Hadoop001 e inicie Hadoop. En este momento, también se iniciarán los servicios relacionados en hadoop002 y hadoop003:

# 启动dfs服务
start-dfs.sh
# 启动yarn服务
start-yarn.sh
4.7 Ver clúster

Use el comando jps en cada servidor para ver el proceso del servicio, o ingrese directamente a la interfaz Web-UI para ver, el puerto es 50070. Puede ver que hay tres Datanodes disponibles en este momento:

Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

Haga clic en Live Nodes para ingresar, puede ver los detalles de cada DataNode:

Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

Luego puede verificar el estado del hilo, el número de puerto es 8088:

Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

5. Enviar servicio al clúster

La forma de enviar trabajos al clúster es exactamente la misma que la del entorno independiente. A continuación, se muestra un ejemplo de cómo enviar el programa de cálculo Pi integrado de Hadoop. Se puede ejecutar en cualquier nodo. El comando es el siguiente:

hadoop jar /usr/app/hadoop-2.6.0-cdh5.15.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar  pi  3  3

Más atención a los productos secos: los datos son excelentes

Versión en clúster de la instalación de hadoop, escrita para personas ocupadas ~

Supongo que te gusta

Origin blog.51cto.com/14974545/2549460
Recomendado
Clasificación