Configuration et test de l'environnement Hadoop

Configuration et test de l'environnement Hadoop

Dans l'expérience précédente, nous avons préparé et configuré l'environnement Linux et l'environnement Hadoop. Par conséquent, dans cette expérience, nous allons configurer et tester l'environnement Hadoop sur la base de l'expérience précédente.

Installation et configuration de l'environnement Linux avant la création de l'environnement Hadoop
https://blog.csdn.net/weixin_43640161/article/details/108614907
Installation et configuration du logiciel JDK sous Linux
https://blog.csdn.net/weixin_43640161/article/details / 108619802
Maîtriser l'installation et la configuration du logiciel Eclipse sous Linux
https://blog.csdn.net/weixin_43640161/article/details/108691921
Familier avec le téléchargement et la décompression Hadoop
https://blog.csdn.net/weixin_43640161/article/details/ 108697510

Il existe trois façons d'installer Hadoop: le mode autonome, le mode pseudo-distribué et le mode distribué.
• Mode autonome: le mode par défaut de Hadoop est le mode non distribué (mode local), et il peut fonctionner sans autre configuration. Processus Java non distribué ou unique, pratique pour le débogage.
• Mode pseudo-distribué: Hadoop peut s'exécuter de manière pseudo-distribuée sur un seul nœud. Le processus Hadoop s'exécute comme un processus Java distinct. Le nœud agit à la fois comme un NameNode et un DataNode. En même temps, il lit les fichiers dans HDFS.
• Mode distribué: utilisez plusieurs nœuds pour former un environnement de cluster afin d'exécuter Hadoop.
• Cette expérience adopte un mode pseudo-distribué autonome pour l'installation.

Conseils de connaissances importants:

  1. Hadoop peut s'exécuter de manière pseudo-distribuée sur un seul nœud. Le processus Hadoop s'exécute comme un processus Java distinct. Le nœud agit à la fois comme un NameNode et un DataNode. En même temps, il lit des fichiers dans HDFS.
  2. Le fichier de configuration de Hadoop se trouve dans hadoop / etc / hadoop /. La pseudo-distribution doit modifier cinq fichiers de configuration hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml et yarn-site. xml
  3. Le fichier de configuration Hadoop est au format xml, et chaque configuration implémente les
    étapes de l' expérience en déclarant le nom et la valeur de la propriété :
  4. Modifier les fichiers de configuration: hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml
  5. Initialiser le système de fichiers hadoop namenode -format
  6. Démarrez tous les processus start-all.sh ou start-dfs.sh, start-yarn.sh
  7. Visitez l'interface Web pour afficher les informations Hadoop
  8. Exécuter l'instance
  9. Arrêtez toutes les instances: stop-all.sh

La première étape: configurer l'environnement Hadoop (la version jdk est différente, le contenu modifié est également différent, je suis ici jdk1.8.0_181 et hadoop-3.1.1)

1. Configurer Hadoop (pseudo-distribué), modifier 5 fichiers de configuration

  1. Entrez le répertoire Hadoop etc.
    Commande du terminal: cd /bigdata/hadoop-3.1.1/etc/hadoop
    Insérez la description de l'image ici

  2. Modifiez le premier fichier de configuration de la
    commande Terminal: sudo vi hadoop-env.sh
    Insérez la description de l'image ici

Trouvez la ligne 54 et modifiez JAVA_HOME comme suit (n'oubliez pas de supprimer le signe # devant):

export JAVA_HOME=/opt/java/jdk1.8.0_181

Insérez la description de l'image ici

  1. Modifiez la deuxième
    commande de terminal du fichier de configuration : sudo vi core-site.xml
    Insérez la description de l'image ici

Insérez la description de l'image ici

<configuration>
  <!-- 配置hdfs的namenode(老大)的地址 -->
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>

  <!-- 配置Hadoop运行时产生数据的存储目录,不是临时的数据 -->
  <property>
    <name>hadoop.tmp.dir</name>
    <value>file:/bigdata/hadoop-3.1.1/tmp</value>
  </property>
</configuration>
  1. Modifiez la troisième
    commande de terminal du fichier de configuration : sudo vi hdfs-site.xml
    Insérez la description de l'image ici
    Insérez la description de l'image ici
<configuration>
 <!-- 指定HDFS存储数据的副本数据量 -->
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
<property>
        <name>dfs.namenode.http-address</name>
        <value>localhost:50070</value>
</property>

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/bigdata/hadoop-3.1.1/tmp/dfs/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/bigdata/hadoop-3.1.1/tmp/dfs/data</value>
 </property>

</configuration>

De plus, bien que la pseudo-distribution ne nécessite que de configurer fs.defaultFS et dfs.replication pour s'exécuter (le tutoriel officiel est le cas), si le paramètre hadoop.tmp.dir n'est pas configuré, le répertoire temporaire par défaut utilisé est / tmp / hadoo-hadoop, Et ce répertoire peut être nettoyé par le système lors du redémarrage, le formatage doit donc être exécuté à nouveau. Nous le configurons donc et spécifions également dfs.namenode.name.dir et dfs.datanode.data.dir, sinon il peut y avoir des erreurs dans les étapes suivantes.

  1. Modifiez le quatrième fichier de configuration:
    Commande du terminal: sudo vi mapred-site.xml
    Insérez la description de l'image ici
    Insérez la description de l'image ici
<configuration>
  <!-- 指定mapreduce编程模型运行在yarn上  -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>
 
  1. Modifiez le cinquième fichier de configuration
    sudo vi yarn-site.xml
    Insérez la description de l'image ici
    Insérez la description de l'image ici
<configuration>
  <!-- 指定yarn的老大(ResourceManager的地址) -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
  
  <!-- mapreduce执行shuffle时获取数据的方式 -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>
 
  1. Initialiser la
    commande de terminal hdfs (format HDFS) :
    cd /bigdata/hadoop-3.1.1/bin/
    sudo ./hdfs namenode -format
    Insérez la description de l'image ici

  2. Si les informations suivantes sont demandées, le formatage est réussi:

Insérez la description de l'image ici

Étape 2: Démarrez et testez Hadoop

Commande du terminal:
cd /bigdata/hadoop-3.1.1/sbin/
ssh localhost
sudo ./start-dfs.sh
sudo ./start-yarn.sh
start-all.sh
Insérez la description de l'image ici

Si l'erreur ci-dessus est signalée, veuillez modifier les 4 fichiers suivants comme suit:
Sous le chemin / hadoop / sbin:
ajoutez les paramètres suivants en haut des fichiers start-dfs.sh et stop-dfs.sh

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

Commande de terminal: sudo vi start-dfs.sh

Insérez la description de l'image ici

Commande de terminal: sudo vi stop-dfs.sh

Insérez la description de l'image ici

En outre, start-yarn.sh et stop-yarn.sh doivent également ajouter les paramètres suivants en haut:

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

Commande de terminal: sudo vi start-yarn.sh
Insérez la description de l'image ici

Commande de terminal: sudo vi start-yarn.sh
Insérez la description de l'image ici

Redémarrez ./start-all.sh après modification, succès!
Insérez la description de l'image ici
De plus, si l'erreur suivante se produit:
Insérez la description de l'image ici
résolvez-la de la manière suivante:
commande terminal:
ssh localhost
cd /bigdata/hadoop-3.1.1/
sudo chmod -R 777 logs
sudo chmod -R 777 tmp

Insérez la description de l'image ici

  1. Utilisez la commande jps pour vérifier si le processus existe. Il existe un total de 5 processus (sauf jps). À chaque redémarrage, le numéro d'identification du processus sera différent. Si vous souhaitez arrêter, vous pouvez utiliser la commande stop-all.sh.
    4327 DataNode
    4920 NodeManager
    4218 NameNode
    4474 SecondaryNameNode
    4651 ResourceManager
    5053 Jps
    Insérez la description de l'image ici

  2. Accédez à l'interface de gestion de hdfs
    localhost: 50070
    Insérez la description de l'image ici

  3. Accéder à l'interface de gestion des fils
    localhost: 8088

Insérez la description de l'image ici

  1. Si vous cliquez sur Nœuds, vous constaterez que ubuntu: 8042 est également accessible

Insérez la description de l'image ici
Insérez la description de l'image ici

  1. Si vous souhaitez arrêter tous les services, veuillez entrer sbin / stop-all.sh

Insérez la description de l'image ici

Ce qui précède est le contenu de la configuration et des tests de l'environnement Hadoop. Si vous rencontrez des erreurs étranges, vous pouvez laisser un message dans la zone de commentaire.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_43640161/article/details/108745864
conseillé
Classement