1. Tout d'abord, vous devez configurer l'environnement jdk, s'il n'y a pas de configuration, veuillez consulter le tutoriel précédent
configuration de l'environnement jdk cliquez directement
Cet article utilise hadoop-2.6.0-cdh5.14.2.tar.gz
2. Commencez par télécharger le package compressé dans le dossier / opt, puis entrez la commande suivante pour décompresser
tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz
Puis renommez le dossier décompressé
mv hadoop-2.6.0-cdh5.14.2/ hadoop
3. Configurer les variables d'environnement
vi /etc/profile
Ici, vous devez faire attention au répertoire de votre dossier de décompression, s'il est différent, vous devez modifier le répertoire de manière appropriée.
J'extraye tous les fichiers dans le dossier / opt
insérer
export HADOOP_HOME=/opt/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_INSTALL=$HADOOP_HOME
modifier
export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
effet final
Vous pouvez également supprimer les variables d'environnement précédentes et coller les commandes suivantes pour obtenir l'effet d'être paresseux
export JAVA_HOME=/opt/jdk1.8.0_221
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/opt/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_INSTALL=$HADOOP_HOME
export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
Entrez la commande pour que la variable d'environnement prenne effet
source /etc/profile
4. Définissez le nom d'hôte et la liste d'hôtes
Définissez le nom d'hôte sur hadoop002
hostnamectl set-hostname hadoop002
vi /etc/hosts
5. Ajouter la confiance mutuelle du système
cd ~
ssh-keygen
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
ssh-copy-id -i .ssh/id_rsa.pub -p22 用户名@主机名
Les étapes 4 et 5 consistent principalement à préparer le cluster
6. Configurer le fichier hadoop
Entrez dans le catalogue
cd /opt/hadoop/etc/hadoop
6.1 Déploiement core-site.xml
Insérer (faites attention à modifier l'adresse IP en ip de linux)
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.83.101:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/tmp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.native.lib</name>
<value>false</value>
<description>Should native hadoop libraries, if present, be used.
</description>
</property>
6.2 Configurer hdfs-site.xml
Insérer (remarque pour modifier l'adresse IP)
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.83.102:50090</value>
</property>
6.3 Emplacement mapred-site.xml
Modifiez d'abord le nom du fichier
mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
Insérer (remarque pour modifier l'adresse IP)
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>192.168.83.102:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.83.102:19888</value>
</property>
6.4 Placement yarn-site.xml
vi yarn-site.xml
Insérer (remarque pour modifier le nom d'hôte)
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop002</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<!-- 日志聚集功能使用 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
6.5 Configurer les esclaves
vi ./slaves
Modifier le nom d'hôte
6.6 Configurer hadoop-env.sh
Changez ici pour le chemin spécifique du package jdk
7. Formater HDFS
hadoop namenode -format
8. Démarrez hadoop
start-all.sh
Visitez http://192.168.83.102:50070/ pour tester
Remarque 9.
Si vous modifiez le fichier de configuration, vous devez suivre les étapes suivantes
- Supprimer le dossier tmp
- Supprimer le dossier des journaux
- Reformater le format namenode HDSF
- Fermer stop-all.sh
- Ouvrez start-all.sh
Annexe 10. Configurer la fonction de requête d'historique de fil
1. Téléchargez hadoop-native-64-2.6.0.tar dans le dossier opt
2. 解 包 hadoop-native-64-2.6.0.tar
tar -xvf hadoop-native-64-2.6.0.tar -C /opt/hadoop/lib/native
3. Copier des fichiers
cd ./hadoop/lib/native/
cp * ../
4. Entrez
mr-jobhistory-daemon.sh start historyserver
5. Visitez http://192.168.83.102:19888/jobhistory
11. Cas officiel de WordCount
Les statistiques de caractères sont un exemple très courant, principalement utilisé pour compter le nombre
Créer un dossier de test
hadoop fs -mkdir /test
Télécharger le fichier à tester
hadoop fs -put README.txt /test
Exécuter la commande wordcount
hadoop jar ./share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.6.0-cdh5.14.2.jar wordcount /test/README.txt /output
Voir les résultats
hadoop fs -cat /output/part-r-00000