hadoop (1) -installation et utilisation de base
Annuaire d'articles
- hadoop (1) -installation et utilisation de base
- 1. Introduction
- Deuxièmement, le fichier de configuration de la clé hadoop
- 3. Préparation avant l'installation de hadoop
- Quatre, installation hadoop
- 4.1 Télécharger hadoop
- 4.2 Décompressez dans un répertoire d'installation personnalisé
- 4.3 Entrez le répertoire d'installation
- 4.4 Modifier le fichier hadoop-env.sh
- 4.5 Modifier le fichier core-site.xml
- 4.6 Modifier le fichier hdfs-site.xml
- 4.7 Configurer les fichiers mapred-site.xml et yarn-site.xml
- 4.8 Formater le système de fichiers hdfs
- 4.9 Démarrer
- Five, hadoop page view
- 6. Fonctionnement de base
1. Introduction
1.1 Fonctionnalités Hadoop
hadoop est un système distribué développé par Apache. Dans un environnement distribué, il est utilisé pour le stockage et le traitement de grandes quantités de données.
1.2 Composition de Hadoop
Hadoop se compose principalement de deux parties, le système de fichiers distribué hdfs (système de fichiers distribué hadoop) et le modèle de programmation MapReduce.
- hdfs: résume le système de fichiers précédent, les fichiers sont stockés sur plusieurs machines, mais partagent le même espace d'adressage.
- MapReduce: une méthode de traitement des données qui peut traiter une grande quantité de données par lots, bien sûr, en temps non réel (le temps de réponse dépend de la quantité de données traitées).
Deuxièmement, le fichier de configuration de la clé hadoop
2.1 core-site.xml
Utilisé pour configurer les propriétés des composants communs
2.2 hdfs-site.xml
Utilisé pour configurer les attributs hdfs
2.3 mapred-site.xml somme yarn-site.xml
Utilisé pour configurer les propriétés MapReduce
2.4 hadoop-env.sh
Configurez l'environnement d'exécution Hadoop, tel que la configuration du chemin jdk, etc.
3. Préparation avant l'installation de hadoop
3.1 Installation de jdk
Assurez-vous d'abord que jdk est installé, voici jdk8.
3.2 Configurer une connexion sans mot de passe
Vous pouvez utiliser la commande ssh localhost pour vous connecter sans mot de passe. Si vous ne pouvez pas vous connecter à la machine d'installation dans ssh, vous devez l'installer.
- sudo apt-get install ssh
- Dans le répertoire de base de l'utilisateur de connexion, entrez ssh-keygen -t rsa -P '' -f .ssh / id_rsa
- cp .ssh / id_rsa.pub .ssh / authorized_keys
- Enfin, utilisez ssh localhost pour voir si vous pouvez vous connecter sans mot de passe.
Quatre, installation hadoop
L'exemple suivant utilise une pseudo-distribution (installée sur une machine pour simuler un cluster à petite échelle).
4.1 Télécharger hadoop
Adresse de téléchargement: http://hadoop.apache.org/releases.html, la version utilisée ici est hadoop-2.7.1, c'est-à-dire que le package d'installation est hadoop-2.7.1.tar.gz
4.2 Décompressez dans un répertoire d'installation personnalisé
tar -zxvf hadoop-2.7.1.tar.gz
4.3 Entrez le répertoire d'installation
cd hadoop-2.7.1
# 再进入配置文件目录
cd etc/hadoop
4.4 Modifier le fichier hadoop-env.sh
Spécifiez le répertoire java_home et ajoutez la configuration comme suit:
export JAVA_HOME=/usr/local/java
4.5 Modifier le fichier core-site.xml
Modifiez la configuration comme suit:
<configuration>
<!-- hdfs文件地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.1:9000</value>
</property>
</configuration>
4.6 Modifier le fichier hdfs-site.xml
Modifiez la configuration comme suit:
<configuration>
<!-- hdfs的web访问地址 -->
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:50070</value>
</property>
<!-- 副本数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- hdfs文件系统元数据存储目录 -->
<property>
<name>dfs.name.dir</name>
<value>/home/china/big_data_dir/hadoop/name</value>
</property>
<!-- hdfs文件系统数据存储目录 -->
<property>
<name>dfs.data.dir</name>
<value>/home/china/big_data_dir/hadoop/data</value>
</property>
</configuration>
4.7 Configurer les fichiers mapred-site.xml et yarn-site.xml
S'il n'y a pas un tel fichier dans le répertoire de configuration, vous pouvez copier une copie à partir du modèle, c'est-à-dire cp mapred-site.xml.template mapred-site.xml,
La configuration de mapred-site.xml est la suivante:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
La configuration yarn-site.xml est la suivante:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>work.cn</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>work.cn:8088</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>192.168.0.1:9001</value>
</property>
</configuration>
4.8 Formater le système de fichiers hdfs
bin/hdfs namenode -format
4.9 Démarrer
sbin/start-dfs.sh
sbin/start-yarn.sh
À ce stade, vous pouvez visualiser la progression du démarrage via jsp, il y en a trois, comme suit:
21392 NameNode
21712 SecondaryNameNode
21505 DataNode
À ce stade, l'installation de hadoop démarre.
Five, hadoop page view
5.1 Vue namenode
Entrez http: // localhost: 50070 dans le navigateur pour afficher.
Cliquez sur Parcourir le système de fichiers dans la liste déroulante Utilitaires en haut de la page pour afficher le système de fichiers dans hdfs.
4.2 Afficher d'autres applications de cluster (jobtracker)
Entrez http: // localhost: 8088 dans le navigateur pour afficher.
6. Fonctionnement de base
6.1 Commandes générales
L'opération de fichier hdfs (à l'exception de quelques commandes) est similaire aux commandes d'opération de fichier sous Linux, sauf que bin / hadoop fs est ajouté à l'avant. Tels que:
#创建文件夹
bin/hadoop fs -mkdir /test
#查看文件内容
bin/hadoop fs -cat /
#查看文件列表
bin/hadoop fs -ls /
Le point important ici est que les fichiers sont téléchargés du local vers le système de fichiers hdfs et téléchargés du système de fichiers hdfs vers le local.
6.2 Téléchargement de fichiers du système de fichiers local vers hdfs
Des commandes telles que:
bin/hadoop fs -copyFromLocal ~/hadoop_space/t.txt /test/
6.3 Téléchargement de fichiers du système de fichiers hdfs vers le local
Des commandes telles que:
bin/hadoop fs -copyToLocal /test/t.txt ~/hadoop_space/t1.txt