Configuration et test de l'environnement Hadoop
Dans l'expérience précédente, nous avons préparé et configuré l'environnement Linux et l'environnement Hadoop. Par conséquent, dans cette expérience, nous allons configurer et tester l'environnement Hadoop sur la base de l'expérience précédente.
Installation et configuration de l'environnement Linux avant la création de l'environnement Hadoop
https://blog.csdn.net/weixin_43640161/article/details/108614907
Installation et configuration du logiciel JDK sous Linux
https://blog.csdn.net/weixin_43640161/article/details / 108619802
Maîtriser l'installation et la configuration du logiciel Eclipse sous Linux
https://blog.csdn.net/weixin_43640161/article/details/108691921
Familier avec le téléchargement et la décompression Hadoop
https://blog.csdn.net/weixin_43640161/article/details/ 108697510
Il existe trois façons d'installer Hadoop: le mode autonome, le mode pseudo-distribué et le mode distribué.
• Mode autonome: le mode par défaut de Hadoop est le mode non distribué (mode local), et il peut fonctionner sans autre configuration. Processus Java non distribué ou unique, pratique pour le débogage.
• Mode pseudo-distribué: Hadoop peut s'exécuter de manière pseudo-distribuée sur un seul nœud. Le processus Hadoop s'exécute comme un processus Java distinct. Le nœud agit à la fois comme un NameNode et un DataNode. En même temps, il lit les fichiers dans HDFS.
• Mode distribué: utilisez plusieurs nœuds pour former un environnement de cluster afin d'exécuter Hadoop.
• Cette expérience adopte un mode pseudo-distribué autonome pour l'installation.
Conseils de connaissances importants:
- Hadoop peut s'exécuter de manière pseudo-distribuée sur un seul nœud. Le processus Hadoop s'exécute comme un processus Java distinct. Le nœud agit à la fois comme un NameNode et un DataNode. En même temps, il lit des fichiers dans HDFS.
- Le fichier de configuration de Hadoop se trouve dans hadoop / etc / hadoop /. La pseudo-distribution doit modifier cinq fichiers de configuration hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml et yarn-site. xml
- Le fichier de configuration Hadoop est au format xml, et chaque configuration implémente les
étapes de l' expérience en déclarant le nom et la valeur de la propriété : - Modifier les fichiers de configuration: hadoop-env.sh, core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml
- Initialiser le système de fichiers hadoop namenode -format
- Démarrez tous les processus start-all.sh ou start-dfs.sh, start-yarn.sh
- Visitez l'interface Web pour afficher les informations Hadoop
- Exécuter l'instance
- Arrêtez toutes les instances: stop-all.sh
La première étape: configurer l'environnement Hadoop (la version jdk est différente, le contenu modifié est également différent, je suis ici jdk1.8.0_181 et hadoop-3.1.1)
1. Configurer Hadoop (pseudo-distribué), modifier 5 fichiers de configuration
-
Entrez le répertoire Hadoop etc.
Commande du terminal: cd /bigdata/hadoop-3.1.1/etc/hadoop
-
Modifiez le premier fichier de configuration de la
commande Terminal: sudo vi hadoop-env.sh
Trouvez la ligne 54 et modifiez JAVA_HOME comme suit (n'oubliez pas de supprimer le signe # devant):
export JAVA_HOME=/opt/java/jdk1.8.0_181
- Modifiez la deuxième
commande de terminal du fichier de configuration : sudo vi core-site.xml
<configuration>
<!-- 配置hdfs的namenode(老大)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!-- 配置Hadoop运行时产生数据的存储目录,不是临时的数据 -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/bigdata/hadoop-3.1.1/tmp</value>
</property>
</configuration>
- Modifiez la troisième
commande de terminal du fichier de configuration : sudo vi hdfs-site.xml
<configuration>
<!-- 指定HDFS存储数据的副本数据量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:50070</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/bigdata/hadoop-3.1.1/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/bigdata/hadoop-3.1.1/tmp/dfs/data</value>
</property>
</configuration>
De plus, bien que la pseudo-distribution ne nécessite que de configurer fs.defaultFS et dfs.replication pour s'exécuter (le tutoriel officiel est le cas), si le paramètre hadoop.tmp.dir n'est pas configuré, le répertoire temporaire par défaut utilisé est / tmp / hadoo-hadoop, Et ce répertoire peut être nettoyé par le système lors du redémarrage, le formatage doit donc être exécuté à nouveau. Nous le configurons donc et spécifions également dfs.namenode.name.dir et dfs.datanode.data.dir, sinon il peut y avoir des erreurs dans les étapes suivantes.
- Modifiez le quatrième fichier de configuration:
Commande du terminal: sudo vi mapred-site.xml
<configuration>
<!-- 指定mapreduce编程模型运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- Modifiez le cinquième fichier de configuration
sudo vi yarn-site.xml
<configuration>
<!-- 指定yarn的老大(ResourceManager的地址) -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<!-- mapreduce执行shuffle时获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
-
Initialiser la
commande de terminal hdfs (format HDFS) :
cd /bigdata/hadoop-3.1.1/bin/
sudo ./hdfs namenode -format
-
Si les informations suivantes sont demandées, le formatage est réussi:
Étape 2: Démarrez et testez Hadoop
Commande du terminal:
cd /bigdata/hadoop-3.1.1/sbin/
ssh localhost
sudo ./start-dfs.sh
sudo ./start-yarn.sh
start-all.sh
Si l'erreur ci-dessus est signalée, veuillez modifier les 4 fichiers suivants comme suit:
Sous le chemin / hadoop / sbin:
ajoutez les paramètres suivants en haut des fichiers start-dfs.sh et stop-dfs.sh
#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
Commande de terminal: sudo vi start-dfs.sh
Commande de terminal: sudo vi stop-dfs.sh
En outre, start-yarn.sh et stop-yarn.sh doivent également ajouter les paramètres suivants en haut:
#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
Commande de terminal: sudo vi start-yarn.sh
Commande de terminal: sudo vi start-yarn.sh
Redémarrez ./start-all.sh après modification, succès!
De plus, si l'erreur suivante se produit:
résolvez-la de la manière suivante:
commande terminal:
ssh localhost
cd /bigdata/hadoop-3.1.1/
sudo chmod -R 777 logs
sudo chmod -R 777 tmp
-
Utilisez la commande jps pour vérifier si le processus existe. Il existe un total de 5 processus (sauf jps). À chaque redémarrage, le numéro d'identification du processus sera différent. Si vous souhaitez arrêter, vous pouvez utiliser la commande stop-all.sh.
4327 DataNode
4920 NodeManager
4218 NameNode
4474 SecondaryNameNode
4651 ResourceManager
5053 Jps
-
Accédez à l'interface de gestion de hdfs
localhost: 50070
-
Accéder à l'interface de gestion des fils
localhost: 8088
- Si vous cliquez sur Nœuds, vous constaterez que ubuntu: 8042 est également accessible
- Si vous souhaitez arrêter tous les services, veuillez entrer sbin / stop-all.sh
Ce qui précède est le contenu de la configuration et des tests de l'environnement Hadoop. Si vous rencontrez des erreurs étranges, vous pouvez laisser un message dans la zone de commentaire.