安装Hadoop:设置单节点Hadoop集群

安装Hadoop:设置单节点Hadoop集群

从我们之前关于Hadoop教程系列的博客中,您必须对Hadoop,HDFS及其体系结构有一个理论的概念。我希望你会喜欢我们以前的HDFS架构博客  ,现在我将带你了解Hadoop和HDFS的实际知识。向前迈出的第一步是安装Hadoop。

有两种安装Hadoop的方法,即单节点多节点

单节点集群  意味着只有一个DataNode运行,并在一台机器上设置所有NameNode,DataNode,ResourceManager和NodeManager。这用于学习和测试目的。例如,让我们考虑一个医疗行业内的样本数据集。因此,为了测试Oozie作业是否已经按照适当的顺序对数据进行了收集,聚合,存储和处理等全部过程,我们使用单节点集群。与包含数百TB数据的大型环境相比,它可以在更小的环境中轻松高效地测试顺序工作流。 

多节点群集中,有多个DataNode正在运行,每个DataNode在不同的机器上运行。多节点集群实际上被用于组织中分析大数据。考虑到上面的例子,我们实时处理PB级的数据时,需要分布在数百台机器上进行处理。因此,这里我们使用多节点集群。 

在这个博客中,我将向您展示如何在单个节点集群上安装Hadoop。

先决条件

  • VIRTUAL BOX:用于在其上安装操作系统。
  • 操作系统:您可以在基于Linux的操作系统上安装Hadoop。Ubuntu和CentOS是非常常用的。在本教程中,我们使用CentOS。    
  • JAVA:您需要在您的系统上安装Java 8软件包。
  • HADOOP:你需要Hadoop 2.7.3包。

安装Hadoop

第1步:点击这里下载Java 8包。将此文件保存在您的主目录中。

第2步:提取Java Tar文件。

命令 tar -xvf jdk-8u101-linux-i586.tar.gz

Untar Java  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 提取Java文件

第3步:下载Hadoop 2.7.3包。

命令 wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

下载Hadoop包 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 下载Hadoop

第4步:解压Hadoop tar文件。

命令:tar -xvf hadoop-2.7.3.tar.gz

提取Hadoop包 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 提取Hadoop文件

第5步:在bash文件(.bashrc)中添加Hadoop和Java路径。

打开 bashrc文件。现在,添加Hadoop和Java Path,如下所示。

命令  vi .bashrc

打开bash  - 安装Hadoop  -  Edureka

在bash中添加Java和Hadoop变量 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 设置环境变量

然后,保存bash文件并关闭它。

要将所有这些更改应用到当前终端,请执行source命令。

命令源.bashrc

将更改应用于Bash  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 刷新环境变量

要确保Java和Hadoop已经正确安装在您的系统上,并且可以通过终端访问,请执行java -version和hadoop版本命令。

命令 java -version

检查Java版本 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 检查Java版本

命令 hadoop 版本

检查Hadoop版本 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 检查Hadoop版本

第6步编辑Hadoop配置文件

命令:  cd hadoop-2.7.3 / etc / hadoop /

命令: ls

所有Hadoop配置文件都位于hadoop-2.7.3 / etc / hadoop目录中,如下所示:

Hadoop配置文件 - 安装Hadoop  -  Edureka

图:Hadoop安装 - Hadoop配置文件

步骤7 打开core-site.xml并在配置标签内编辑下面提到的属性:

core-site.xml通知Hadoop守护进程,NameNode在群集中运行。它包含Hadoop核心的配置设置,例如HDFS和MapReduce共有的I / O设置。

命令 vi core-site.xml

编辑核心站点 - 安装Hadoop  -  Edureka

核心站点的属性 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 配置core-site.xml

1
2
3
4
6
7
8
<? xml version = "1.0" encoding = "UTF-8" ?>
<? xml-stylesheet type = "text/xsl" href = "configuration.xsl" ?>
< configuration >
< property >
< name >fs.default.name</ name >
< value >hdfs://localhost:9000</ value >
</ property >
</ configuration >

第8步:编辑hdfs-site.xml 并在配置标签内编辑下面提到的属性:

hdfs-site.xml包含HDFS守护进程(即NameNode,DataNode,Secondary NameNode)的配置设置。它还包括HDFS的复制因子和块大小。

命令 vi hdfs-site.xml

编辑Hdfs网站 - 安装Hadoop  -  Edureka

hdfs-site的属性 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 配置hdfs-site.xml

 

1
2
3
4
6
7
8
9
10
11
12
<? xml version = "1.0" encoding = "UTF-8" ?>
<? xml-stylesheet type = "text/xsl" href = "configuration.xsl" ?>
< configuration >
< property >
< name >dfs.replication</ name >
< value >1</ value >
</ property >
< property >
< name >dfs.permission</ name >
< value >false</ value >
</ property >
</ configuration >

 

第9步编辑mapred-site.xml文件并在配置标签内编辑下面提到的属性:

mapred-site.xml包含MapReduce应用程序的配置设置,如可并行运行的JVM的数量,映射器和还原器进程的大小,进程可用的CPU内核等。

在某些情况下,mapred-site.xml文件不可用。所以,我们必须使用mapred-site.xml模板创建mapred-site.xml文件  

命令 cp mapred-site.xml.template mapred-site.xml

命令 vimapred-站点。xml 

创建mapred站点 - 安装Hadoop  -  Edureka

编辑mapred-site  - 安装Hadoop  -  Edureka

mapred-site的属性 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 配置mapred-site.xml

 

1
2
3
4
6
7
8
<? xml version = "1.0" encoding = "UTF-8" ?>
<? xml-stylesheet type = "text/xsl" href = "configuration.xsl" ?>
< configuration >
< property >
< name >mapreduce.framework.name</ name >
< value >yarn</ value >
</ property >
</ configuration >

 

第10步:编辑yarn-site.xml  并在配置标签内编辑下面提到的属性:

yarn-site.xml包含ResourceManager和NodeManager的配置设置,如应用程序内存管理大小,程序和算法所需的操作等。

命令 vi yarn-site.xml

编辑YARN网站 - 安装Hadoop  -  Edureka

YARN网站的属性 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 配置yarn-site.xml

 

1
2
3
4
6
7
8
9
10
11
<? xml version = "1.0" >
< configuration >
< property >
< name >yarn.nodemanager.aux-services</ name >
< value >mapreduce_shuffle</ value >
</ property >
< property >
< name >yarn.nodemanager.auxservices.mapreduce.shuffle.class</ name >
< value >org.apache.hadoop.mapred.ShuffleHandler</ value >
</ property >
</ configuration >

 

第11步:编辑hadoop-env.sh并添加Java路径,如下所述:

hadoop-env.sh包含脚本中用来运行Hadoop的环境变量,如Java home path等

命令 vi hadoop-env。SH

编辑Hadoop-env  - 安装Hadoop  -  Edureka

hadoop-env的属性 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 配置hadoop-env.sh

第12步:  转到Hadoop主目录并格式化NameNode。

命令  cd

命令  cd hadoop-2.7.3

命令  bin / hadoop namenode -format

格式化NameNode  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 格式NameNode

这通过NameNode格式化HDFS。这个命令只是第一次执行。格式化文件系统意味着初始化由dfs.name.dir变量指定的目录。

永远不要格式化,运行Hadoop文件系统。你将失去所有存储在HDFS中的数据。  

第十三步:一旦NameNode被格式化,转到hadoop-2.7.3 / sbin目录并启动所有的守护进程。

命令:  cd hadoop-2.7.3 / sbin

您可以使用单个命令启动所有守护进程,也可以单独执行。

命令:  ./ start-all.sh

上面的命令是 start-dfs.sh,start-yarn.sh&  mr-jobhistory-daemon.sh

或者你可以单独运行所有的服务如下:

启动NameNode:

NameNode是HDFS文件系统的核心。它保存HDFS中存储的所有文件的目录树,并跟踪存储在群集中的所有文件。

命令: ./hadoop-daemon.sh start namenode

启动NameNode  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 启动NameNode

启动DataNode:

在启动时,DataNode连接到Namenode,它响应Namenode对不同操作的请求。

命令: ./hadoop-daemon.sh启动datanode

启动DataNode  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 启动DataNode

启动ResourceManager:

ResourceManager是仲裁所有可用群集资源的主机,从而有助于管理在YARN系统上运行的分布式应用程序。其工作是管理每个NodeManagers和每个应用程序的ApplicationMaster。

命令: ./yarn -daemon.sh启动resourcemanager

启动ResourceManager  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 启动ResourceManager

启动NodeManager:

每个机器框架中的NodeManager是负责管理容器的代理,监视它们的资源使用情况并将其报告给ResourceManager。

命令: ./yarn -daemon.sh启动nodemanager

启动NodeManager  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 启动NodeManager

启动JobHistoryServer:

JobHistoryServer负责处理来自客户的所有与工作历史相关的请求。

命令 ./mr-jobhistory-daemon.sh启动historyserver

第14步:要检查所有Hadoop服务已启动并正在运行,请运行以下命令。

命令: jps

开始作业记录 - 安装Hadoop  -  Edureka

图:Hadoop安装 - 检查守护进程

第15步:现在打开Mozilla浏览器并转到localhost50070 / dfshealth.html以检查NameNode接口。

Hadoop NameNode UI  - 安装Hadoop  -  Edureka

图:Hadoop安装 - 启动WebUI

恭喜,您已经成功安装了单个节点的Hadoop集群。 在下一篇Hadoop教程系列博客中,我们将介绍如何在多节点集群上安装Hadoop。

猜你喜欢

转载自blog.csdn.net/qq_40784783/article/details/79121093