Hadoop的安装与配置
一、准备工作
-
关闭防火墙、配置主机名
-
安装JDK
-
Hadoop tar.gz 安装包准备(hadoop-2.7.3.tar.gz)
解压安装包,根据个人习惯我把程序解压至/data/目录下# tar命令 -C 指定解压目录 tar -zxvf hadoop-2.7.3.tar.gz -C /data/
-
Linux 环境准备SSH免密登陆
部署Hadoop 前我们首先要配置好服务器JAVA环境,关闭防火墙,配置好主机名以及服务器之间配置ssh免密码登陆,全分布部署需要至少三台服务器
二、Hadoop的目录结构
我们可以通过tree命令来查看Hadoop目录结构
# tree 命令 -d参数标示只查看目录 -L表示查看目录深度
tree hadoop-2.7.3/ -d -L 3
三、Hadoop的三种安装模式
-
配置环境变量
在/etc/profile 文件中追加如下配置#HADOOP HADOOP_HOME=/data/hadoop-2.7.3 export HADOOP_HOME PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export PATH
配置结束后需要使配置文件生效
source /etc/profile
-
验证环境变量是否生效
命令行输入 start 连按两次制表符 Tab 如果命令行自动补全如下说明配置生效
1、本地模式
特点:没有HDFS,只能测试MapReduce程序(不是运行在Yarn中,当做一个独立的Java程序来运行)
配置参数表:所有的配置文件均在Hadoop 的 etc/hadoop目录下
参数文件 | 配置参数 | 参考值 |
---|---|---|
hadoop-env.sh | JAVA_HOME | /root/training/jdk1.8.0_144 |
2、伪分布模式
特点:在单机上,模拟一个分布式的环境,具备Hadoop的所有功能
HDFS:NameNode + DataNode + SecondaryNameNode
Yarn:ResourceManager + NodeManager
配置参数表:所有的配置文件均在Hadoop 的 etc/hadoop目录下
参数文件 | 配置参数 | 参考值 |
---|---|---|
hadoop-env.sh | JAVA_HOME | /root/training/jdk1.8.0_144 |
hdfs-site.xml | dfs.replication | 1 |
hdfs-site.xml | dfs.permissions | false |
core-site.xml | fs.defaultFS | hdfs://< hostname >:9000 |
core-site.xml | hadoop.tmp.dir | /root/training/hadoop-2.7.3/tmp |
mapred-site.xml | mapreduce.framework.name | yarn |
yarn-site.xml | yarn.resourcemanager.hostname | < hostname > |
yarn-site.xml | yarn.nodemanager.aux-services | mapreduce_shuffle |
3、全分布模式
配置参数表:所有的配置文件均在Hadoop 的 etc/hadoop目录下
参数文件 | 配置参数 | 参考值 |
---|---|---|
hadoop-env.sh | JAVA_HOME | /root/training/jdk1.8.0_144 |
hdfs-site.xml | dfs.replication | 2 |
hdfs-site.xml | dfs.permissions | false |
core-site.xml | fs.defaultFS | hdfs://< hostname >:9000 |
core-site.xml | hadoop.tmp.dir | /root/training/hadoop-2.7.3/tmp |
mapred-site.xml | mapreduce.framework.name | yarn |
yarn-site.xml | yarn.resourcemanager.hostname | < hostname > |
yarn-site.xml | yarn.nodemanager.aux-services | mapreduce_shuffle |
slaves | DataNode的地址 | 从节点1 从节点2 |
by sure