1. Descripción de la versión de las herramientas utilizadas:
centos版本:CentOS-7.4-x86_64-DVD-1708.iso
JDK版本:jdk-8u231-linux-x64.tar.gz
Hadoop版本:hadoop-2.7.3.tar.gz
https://archive.apache.org/dist/hadoop/common/
![在这里插入图片描述](https://img-blog.csdnimg.cn/20201017131939971.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3l0YW5nZGlnbA==,size_16,color_FFFFFF,t_70#pic_center)
2. Preparación ambiental
2.1 instalar centos
Referencia: Instalación de CentOS7 en VirtualBox (versión Mac)
2.2 Apague el firewall
# 停止firewall
systemctl stop firewalld.service
# 禁止firewall开机启动
systemctl disable firewalld.service
2.3 Configurar inicio de sesión sin contraseña SSH
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
2.4 Instalar jdk
Referencia: instalar jdk en el servidor Centos
3. Instale Hadoop2.7.3
3.1 Cree un nuevo directorio hadoop en el directorio / usr /, cargue el paquete de instalación hadoop-2.7.3.tar.gz en el directorio hadoop y descomprima
tar -zxvf hadoop-2.7.3.tar.gz
Ejecute la siguiente declaración para crear el directorio correspondiente:
mkdir -p /usr/hadoop/tmp/
mkdir -p /usr/hadoop/hdfs/
mkdir -p /usr/hadoop/hdfs/data/
mkdir -p /usr/hadoop/hdfs/name/
3.2 Configurar las variables de entorno de hadoop
vi / etc / profile
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
Ejecute source / etc / profile para hacerlo efectivo
3.3 Modifique el entorno java del archivo /usr/hadoop/hadoop-2.7.3/etc/hadoop/hadoop-env.sh y agregue la ruta de instalación de java:
export JAVA_HOME=/usr/java/jdk1.8.0_231
3.4 Modificar el archivo /usr/hadoop/hadoop2.7.3/etc/hadoop/core-site.xml
<configuration>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.1.9:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>
</configuration>
3.5 Modificar /usr/hadoop/hadoop2.7.3/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/hdfs/name</value>
<description>namenode上存储hdfs名字空间元数据 </description>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/hadoop/hdfs/data</value>
<description>datanode上数据块的物理存储位置</description>
</property>
<!-- 设置hdfs副本数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.6 A continuación, configure el archivo de hilo. Configure /usr/hadoop/hadoop-2.7.3/etc/hadoop/mapred-site.xml. Tenga en cuenta aquí que el archivo predeterminado en hadoop es el archivo mapred-site.xml.template. configure yarn, cambie el nombre de mapred-site.xml.template a mapred-site.xml.
mv mapred-site.xml.template mapred-site.xml
<configuration>
<!-- 通知框架MR使用YARN -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
3.7 Configurar el archivo /usr/hadoop/hadoop-2.7.3/etc/hadoop/yarn-site.xml
<configuration>
<!-- reducer取数据的方式是mapreduce_shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
3.8 Formatear hdfs
cd /usr/hadoop/hadoop-2.7.3
./bin/hdfs namenode -format
3.9 hdfs iniciar y detener
# 启动hdfs
./sbin/start-dfs.sh
# 停止hdfs
./sbin/stop-dfs.sh
Ingrese en el navegador: http://192.168.1.9:50070/
Puede usar el comando jps para ver el proceso iniciado:
3.10 arranque y parada del hilo
# 启动yarn
./sbin/start-yarn.sh
# 停止yarn
./sbin/stop-yarn.sh
Ingrese en el navegador: http://192.168.1.9:8088
instalación e implementación del clúster consulte mi otro blog: Hadoop2.7.3 instalación e implementación del clúster en centos7