hadoop (1) -installation et utilisation de base

hadoop (1) -installation et utilisation de base

1. Introduction

1.1 Fonctionnalités Hadoop

hadoop est un système distribué développé par Apache. Dans un environnement distribué, il est utilisé pour le stockage et le traitement de grandes quantités de données.

1.2 Composition de Hadoop

Hadoop se compose principalement de deux parties, le système de fichiers distribué hdfs (système de fichiers distribué hadoop) et le modèle de programmation MapReduce.

  • hdfs: résume le système de fichiers précédent, les fichiers sont stockés sur plusieurs machines, mais partagent le même espace d'adressage.
  • MapReduce: une méthode de traitement des données qui peut traiter une grande quantité de données par lots, bien sûr, en temps non réel (le temps de réponse dépend de la quantité de données traitées).

Deuxièmement, le fichier de configuration de la clé hadoop

2.1 core-site.xml

Utilisé pour configurer les propriétés des composants communs

2.2 hdfs-site.xml

Utilisé pour configurer les attributs hdfs

2.3 mapred-site.xml somme yarn-site.xml

Utilisé pour configurer les propriétés MapReduce

2.4 hadoop-env.sh

Configurez l'environnement d'exécution Hadoop, tel que la configuration du chemin jdk, etc.

3. Préparation avant l'installation de hadoop

3.1 Installation de jdk

Assurez-vous d'abord que jdk est installé, voici jdk8.

3.2 Configurer une connexion sans mot de passe

Vous pouvez utiliser la commande ssh localhost pour vous connecter sans mot de passe. Si vous ne pouvez pas vous connecter à la machine d'installation dans ssh, vous devez l'installer.

  1. sudo apt-get install ssh
  2. Dans le répertoire de base de l'utilisateur de connexion, entrez ssh-keygen -t rsa -P '' -f .ssh / id_rsa
  3. cp .ssh / id_rsa.pub .ssh / authorized_keys
  4. Enfin, utilisez ssh localhost pour voir si vous pouvez vous connecter sans mot de passe.

Quatre, installation hadoop

L'exemple suivant utilise une pseudo-distribution (installée sur une machine pour simuler un cluster à petite échelle).

4.1 Télécharger hadoop

Adresse de téléchargement: http://hadoop.apache.org/releases.html, la version utilisée ici est hadoop-2.7.1, c'est-à-dire que le package d'installation est hadoop-2.7.1.tar.gz

4.2 Décompressez dans un répertoire d'installation personnalisé

tar -zxvf hadoop-2.7.1.tar.gz 

4.3 Entrez le répertoire d'installation

cd hadoop-2.7.1
# 再进入配置文件目录
cd etc/hadoop

4.4 Modifier le fichier hadoop-env.sh

Spécifiez le répertoire java_home et ajoutez la configuration comme suit:

export JAVA_HOME=/usr/local/java

4.5 Modifier le fichier core-site.xml

Modifiez la configuration comme suit:

<configuration>
<!-- hdfs文件地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.0.1:9000</value>
    </property>
</configuration>

4.6 Modifier le fichier hdfs-site.xml

Modifiez la configuration comme suit:

<configuration>
<!-- hdfs的web访问地址 -->
<property>
    <name>dfs.namenode.http-address</name>
    <value>localhost:50070</value>
</property>
<!-- 副本数 -->
<property>
  <name>dfs.replication</name>
  <value>2</value>
 </property>

<!-- hdfs文件系统元数据存储目录 -->
<property>
  <name>dfs.name.dir</name>
  <value>/home/china/big_data_dir/hadoop/name</value>
 </property>

<!-- hdfs文件系统数据存储目录 -->
<property>
  <name>dfs.data.dir</name>
  <value>/home/china/big_data_dir/hadoop/data</value>
 </property>
</configuration>

4.7 Configurer les fichiers mapred-site.xml et yarn-site.xml

S'il n'y a pas un tel fichier dans le répertoire de configuration, vous pouvez copier une copie à partir du modèle, c'est-à-dire cp mapred-site.xml.template mapred-site.xml,

La configuration de mapred-site.xml est la suivante:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

La configuration yarn-site.xml est la suivante:

<configuration>
    <property>
      <name>yarn.resourcemanager.hostname</name>
        <value>work.cn</value>
     </property>
     <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
     </property>
    <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>work.cn:8088</value>
    </property>
    <property>
      <name>mapred.job.tracker</name>
      <value>192.168.0.1:9001</value>
    </property>
</configuration>

4.8 Formater le système de fichiers hdfs

bin/hdfs namenode -format

4.9 Démarrer

sbin/start-dfs.sh
sbin/start-yarn.sh

À ce stade, vous pouvez visualiser la progression du démarrage via jsp, il y en a trois, comme suit:

21392 NameNode
21712 SecondaryNameNode
21505 DataNode

À ce stade, l'installation de hadoop démarre.

Five, hadoop page view

5.1 Vue namenode

Entrez http: // localhost: 50070 dans le navigateur pour afficher.
Cliquez sur Parcourir le système de fichiers dans la liste déroulante Utilitaires en haut de la page pour afficher le système de fichiers dans hdfs.

4.2 Afficher d'autres applications de cluster (jobtracker)

Entrez http: // localhost: 8088 dans le navigateur pour afficher.

6. Fonctionnement de base

6.1 Commandes générales

L'opération de fichier hdfs (à l'exception de quelques commandes) est similaire aux commandes d'opération de fichier sous Linux, sauf que bin / hadoop fs est ajouté à l'avant. Tels que:

#创建文件夹
bin/hadoop fs -mkdir /test 
#查看文件内容
bin/hadoop fs -cat /
#查看文件列表
bin/hadoop fs -ls /

Le point important ici est que les fichiers sont téléchargés du local vers le système de fichiers hdfs et téléchargés du système de fichiers hdfs vers le local.

6.2 Téléchargement de fichiers du système de fichiers local vers hdfs

Des commandes telles que:

bin/hadoop fs -copyFromLocal ~/hadoop_space/t.txt  /test/

6.3 Téléchargement de fichiers du système de fichiers hdfs vers le local

Des commandes telles que:

bin/hadoop fs -copyToLocal /test/t.txt ~/hadoop_space/t1.txt
274 articles originaux publiés · 95 éloges · 500 000+ vues

Je suppose que tu aimes

Origine blog.csdn.net/chinabestchina/article/details/105501086
conseillé
Classement