installation autonome et pseudo-distribution de hadoop3.3.1

Installation autonome et pseudo-distribution de HADOOP3.3.1 sous @ubuntu

Tout d'abord, les principales étapes d'installation de cet article font référence au livre "Big Data Technology Principles and Applications" de Lin Ziyu. Cet article vise à enregistrer certains des problèmes rencontrés par l'auteur lors de la configuration de Hadoop selon les étapes du livre et les problèmes survenus après les changements de version. En même temps, les solutions correspondantes sont proposées.

Installation autonome de HADOOP3.3.1 sous Ubuntu

  1. Tout d'abord, créez un nouvel utilisateur sous votre propre système Ubuntu, c'est-à-dire créez un environnement expérimental relativement isolé (l'ordinateur du lecteur est le système Linux par défaut dans cet article)

La commande pour créer un utilisateur est la suivante

$ sudo useradd -m hadoop -s /bin/bash

Définissez ensuite un mot de passe pour le nouvel utilisateur

$ sudo passwd hadoop

Enfin, ajoutez les droits d'administrateur au nouvel utilisateur

$ sudo adduser hadoop sudo

De cette façon, un nouvel utilisateur expérimental hadoop sous Linux est créé, puis redémarrez pour entrer l'utilisateur expérimental hadoop

$ sudo shutdown -r       

commande de redémarrage Linux

PS : L’auteur des instructions d’utilisation ci-dessus n’a rencontré aucune erreur lors de l’opération. Si des lecteurs font des erreurs, veuillez laisser un message

  1. Mettez à jour apt et installez l'éditeur vim
    PS : Si c'est la première fois que vous utilisez le système Linux, il est recommandé de changer la source, donc je n'entrerai pas dans les détails ici

Mettez à jour la commande apt comme suit

$ sudo apt-get update

La commande pour installer l'éditeur vim est la suivante

$ sudo apt-get install vim

Une confirmation est requise lors de l'installation, entrez simplement y à l'invite (o/n)

  1. Installez SSH et configurez la connexion sans mot de passe SSH

Le système Ubuntu a installé le client SSH par défaut, il suffit donc ici d'installer le serveur SSH, la commande est la suivante :

$ sudo apt-get install openssh-server

Entrez également y lorsque vous rencontrez une confirmation

Après l'installation, utilisez la commande suivante pour vous connecter à la machine :

$ ssh localhost

Lorsque vous y êtes invité, saisissez oui et saisissez le mot de passe local pour vous connecter. Vous constaterez peut-être que vous devez saisir un mot de passe à chaque fois que vous vous connectez, configurez donc la connexion sans mot de passe.

Déconnectez-vous de la connexion précédente

$ exit

Utilisez ssh-keygen pour générer une clé et ajoutez la clé à l'autorisation, la commande est la suivante :

$ cd ~/.ssh/
$ ssh-keygen -t rsa

PS : Ici, continuez simplement à appuyer sur la touche Entrée après avoir saisi la deuxième ligne d'instructions. Ne saisissez pas de caractères supplémentaires en continu. Les
commandes suivantes sont les suivantes :

$ cat ./id_rsa.pub >> ./authorized_keys

PS : saisissez la commande ici sur une seule ligne, ne séparez pas les lignes.

À ce stade, utilisez ssh localhost pour vous connecter sans mot de passe.

  1. Installez l'environnement JAVA
    PS : Je n'entrerai pas trop dans les détails sur le téléchargement du package d'installation JAVA ici. La version par défaut du JDK dans cet article est 1.8 et le répertoire de téléchargement du package compressé est dans ~/download

Exécutez la commande suivante pour créer le répertoire "/usr/lib/jvm" pour stocker les fichiers :

$ cd /usr/lib
$ sudo mkdir jvm

Exécutez la commande suivante pour décompresser le package d'installation :

$ cd ~
$ cd 下载
$ sudo tar -zxvf ./jdk-8u301-linux-x64.tar.gz -C /usr/lib/jvm

Après décompression, définissez les variables d'environnement :

$ vim ~/.bashrc

Ajoutez le code suivant au début du fichier :
 PS : Après avoir entré vim, appuyez sur i pour entrer dans l'état d'édition. Après avoir ajouté le contenu, appuyez sur la touche Echap pour quitter le mode d'édition, puis appuyez sur :, entrez wq ! Enregistrez et quittez vigueur

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_301
export JRE_HOME=${
    
    JAVA_HOME}/jre
export CLASSPATH=.:${
    
    JAVA_HOME}/lib:${
    
    JRE_HOME}/lib
export PATH=${
    
    JAVA_HOME}/bin:$PATH

Enregistrez comme ci-dessus, quittez vim et exécutez la commande suivante pour que le fichier prenne effet :

$ source ~/.bashrc

À ce stade, utilisez la commande suivante pour vérifier si JAVA est installé et configuré correctement :

$ java -version

À ce stade, le processus de configuration de base est terminé. Ensuite, configurez Hadoop.

Installer HADOOP autonome

Lors de l'exécution de hadoop en mode autonome, tous les nœuds sont sur la même machine et le stockage utilise le système de fichiers local et HDFS n'est pas impliqué.

HADOOP3.3.1 est utilisé pour les expériences dans les étapes d'installation suivantes.

Téléchargez le package d'installation 3.3.1 correspondant depuis le site officiel de Hadoop (https://hadoop.apache.org/releases.html). L'emplacement de téléchargement du package d'installation se trouve dans le répertoire ~/Downloads ou ~/Downloads. L'installation Le package est nommé hadoop-3.3 .1.tar.gz, puis passez à l'opération d'installation

PS : les packages d'installation par défaut suivants sont enregistrés dans ~/Downloads

$ sudo tar -zxf ~/Downloads/hadoop-3.3.1.tar.gz -C /usr/local

À ce stade, hadoop a été décompressé dans le répertoire spécifié. Ensuite, modifiez le nom du répertoire et accordez les autorisations.

$ sudo mv ./hadoop-3.3.1.tar.gz ./hadoop
$ sudo chown -R hadoop ./hadoop

À ce stade, vous pouvez utiliser la commande suivante pour vérifier le numéro de version Hadoop

$ /usr/local/hadoop/bin/hadoop version

Si les informations suivantes sont renvoyées, l'installation a réussi :

Hadoop 3.3.1
Source code repository https://github.com/apache/hadoop.git -r a3b9c37a397ad4188041dd80621bdeefc46885f2
Compiled by ubuntu on 2021-06-15T05:13Z
Compiled with protoc 3.7.1
From source with checksum 88a4ddb2299aca054416d6b7f81ca55
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-3.3.1.jar

Installation pseudo-distribuée HADOOP

Dans une installation distribuée, HDFS est utilisé pour le stockage Hadoop, et le nœud de nom et le nœud de données s'exécutent sur des machines différentes. L'installation pseudo-distribuée simule une distribution de cluster, mais il n'y a qu'un seul nœud dans le cluster, et le nœud de nom et le nœud de données se trouvent tous deux sur une seule machine. Cependant, l'installation distribuée peut également être réalisée sur un ordinateur à l'aide de certaines technologies, telles que les machines virtuelles et Docker. Dans le prochain article, nous présenterons le processus d'utilisation de Docker pour la construction distribuée de Hadoop.

Tout d'abord, modifiez les deux fichiers (core.site.xml et hdfs.site.xml) dans le répertoire d'installation de Hadoop.
PS : Le chemin du fichier impliqué ci-dessous est /usr/local/hadoop/etc/hadoop. Utilisez la commande cd pour accéder et utilisez la commande ls pour afficher

Le contenu modifié de core.site.xml est

<configuration>
	<property>
                 <name>hadoop.tmp.dir</name>
                 <value>file:/usr/local/hadoop/tmp</value>
                 <description>Abase for other temporary directories.</description>
          </property>
          <property>
                 <name>fs.defaultFS</name>
                 <value>hdfs://localhost:9000</value>
          </property>
</configuration>

Le contenu modifié de hdfs.site.xml est :

<configuration>
	<property>
                    <name>dfs.replication</name>
                    <value>1</value>
               </property>
               <property>
                    <name>dfs.namenode.name.dir</name>
		    <value>file:/usr/local/hadoop/tmp/dfs/name</value>
               </property>
               <property>
                     <name>dfs.datanode.data.dir</name>
                     <value>file:/usr/local/hadoop/tmp/dfs/data</value>
               </property>
               <property>
                     <name>dfs.http.address</name>
                     <value>127.0.0.1:50070</value>
               </property>
</configuration>

Le contenu ici est légèrement différent de celui du livre, les deux sont acceptables et servent uniquement de référence.

Initialisez le nœud une fois la configuration terminée :

$ cd /usr/local/hadoop
$ ./bin/hdfs namenode -format

Après l'exécution, une longue réponse apparaîtra. Les dernières lignes ressemblent à une erreur. Ne vous inquiétez pas pour le moment. Recherchez le formatage réussi dans les dix dernières lignes de la réponse . Elle peut être initialisée tant que vous suivez le formatage normal. configuration ci-dessus. Si vous ne la trouvez pas, effectuez à nouveau le débogage.

À ce stade, une fois l'initialisation réussie, vous pouvez démarrer HDFS avec la commande suivante

$ cd /usr/local/hadoop
$ ./sbin/start-dfs.sh

Si la réponse suivante apparaît :

Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [peryol-ThinkPad-T540p]

Ensuite, utilisez la commande suivante pour afficher tous les processus JAVA :

24297 Jps
24156 SecondaryNameNode
23932 DataNode
23789 NameNode

S'il apparaît que les quatre processus fonctionnent normalement comme ci-dessus (peu importe si les nombres sont différents), le démarrage est réussi et vous pouvez accéder à la page Web (http://localhost:50070) dans le navigateur. . Si vous le configurez selon les étapes du livre, vous pouvez y accéder. Le numéro d'adresse (50070) est légèrement différent.

Remplir

  1. Après l'initialisation au premier démarrage, la réinitialisation n'est pas requise pour les démarrages suivants. Si la réinitialisation est requise dans certaines circonstances, veuillez supprimer au préalable le répertoire de stockage de fichiers par défaut (/usr/local/hadoop/tmp) dans le répertoire d'installation. Ce répertoire est dans Set dans les deux fichiers de configuration modifiés ci-dessus.
  2. Si une erreur DataStreamerException se produit lors de l'utilisation de la commande put, assurez-vous d'abord que le pare-feu de votre système Linux est désactivé. Si une erreur est toujours signalée en réessayant, initialisez hadoop. Veuillez vous référer au premier point pour les précautions.
  3. Si d'autres erreurs se produisent, vérifiez s'il existe des erreurs de traitement détaillées dans les étapes ci-dessus, telles qu'un espace manquant ou des fautes d'orthographe dans les instructions.

Enfin, s’il y a des erreurs, n’hésitez pas à les critiquer et à les corriger.

Je suppose que tu aimes

Origine blog.csdn.net/weixin_45704680/article/details/120368821
conseillé
Classement