安装Hadoop：设置单节点Hadoop集群

从我们之前关于Hadoop教程系列的博客中，您必须对Hadoop，HDFS及其体系结构有一个理论的概念。我希望你会喜欢我们以前的HDFS架构博客，现在我将带你了解Hadoop和HDFS的实际知识。向前迈出的第一步是安装Hadoop。

有两种安装Hadoop的方法，即单节点和多节点。

单节点集群意味着只有一个DataNode运行，并在一台机器上设置所有NameNode，DataNode，ResourceManager和NodeManager。这用于学习和测试目的。例如，让我们考虑一个医疗行业内的样本数据集。因此，为了测试Oozie作业是否已经按照适当的顺序对数据进行了收集，聚合，存储和处理等全部过程，我们使用单节点集群。与包含数百TB数据的大型环境相比，它可以在更小的环境中轻松高效地测试顺序工作流。

在多节点群集中，有多个DataNode正在运行，每个DataNode在不同的机器上运行。多节点集群实际上被用于组织中分析大数据。考虑到上面的例子，我们实时处理PB级的数据时，需要分布在数百台机器上进行处理。因此，这里我们使用多节点集群。

在这个博客中，我将向您展示如何在单个节点集群上安装Hadoop。

先决条件

VIRTUAL BOX：用于在其上安装操作系统。
操作系统：您可以在基于Linux的操作系统上安装Hadoop。Ubuntu和CentOS是非常常用的。在本教程中，我们使用CentOS。
JAVA：您需要在您的系统上安装Java 8软件包。
HADOOP：你需要Hadoop 2.7.3包。

安装Hadoop

第1步：点击这里下载Java 8包。将此文件保存在您的主目录中。

第2步：提取Java Tar文件。

命令： tar -xvf jdk-8u101-linux-i586.tar.gz

Untar Java - 安装Hadoop - Edureka

图：Hadoop安装 - 提取Java文件

第3步：下载Hadoop 2.7.3包。

命令： wget https://archive.apache.org/dist/hadoop/core/hadoop-2.7.3/hadoop-2.7.3.tar.gz

下载Hadoop包 - 安装Hadoop - Edureka

图：Hadoop安装 - 下载Hadoop

第4步：解压Hadoop tar文件。

命令：tar -xvf hadoop-2.7.3.tar.gz

提取Hadoop包 - 安装Hadoop - Edureka

图：Hadoop安装 - 提取Hadoop文件

第5步：在bash文件（.bashrc）中添加Hadoop和Java路径。

打开。 bashrc文件。现在，添加Hadoop和Java Path，如下所示。

命令： vi .bashrc

打开bash - 安装Hadoop - Edureka

在bash中添加Java和Hadoop变量 - 安装Hadoop - Edureka

图：Hadoop安装 - 设置环境变量

然后，保存bash文件并关闭它。

要将所有这些更改应用到当前终端，请执行source命令。

命令：源.bashrc

将更改应用于Bash - 安装Hadoop - Edureka

图：Hadoop安装 - 刷新环境变量

要确保Java和Hadoop已经正确安装在您的系统上，并且可以通过终端访问，请执行java -version和hadoop版本命令。

命令： java -version

检查Java版本 - 安装Hadoop - Edureka

图：Hadoop安装 - 检查Java版本

命令： hadoop 版本

检查Hadoop版本 - 安装Hadoop - Edureka

图：Hadoop安装 - 检查Hadoop版本

第6步：编辑Hadoop配置文件。

命令： cd hadoop-2.7.3 / etc / hadoop /

命令： ls

所有Hadoop配置文件都位于hadoop-2.7.3 / etc / hadoop目录中，如下所示：

Hadoop配置文件 - 安装Hadoop - Edureka

图：Hadoop安装 - Hadoop配置文件

步骤7 ：打开core-site.xml并在配置标签内编辑下面提到的属性：

core-site.xml通知Hadoop守护进程，NameNode在群集中运行。它包含Hadoop核心的配置设置，例如HDFS和MapReduce共有的I / O设置。

命令： vi core-site.xml

编辑核心站点 - 安装Hadoop - Edureka

核心站点的属性 - 安装Hadoop - Edureka

图：Hadoop安装 - 配置core-site.xml

1

2

3

4

五

6

7

8

 
         <? 
         xml 
          version 
         = 
         "1.0" 
          encoding 
         = 
         "UTF-8" 
         ?> 
        
 
         <? 
         xml-stylesheet 
          type 
         = 
         "text/xsl" 
          href 
         = 
         "configuration.xsl" 
         ?> 
        
 
         < 
         configuration 
         > 
        
 
         < 
         property 
         > 
        
 
         < 
         name 
         >fs.default.name</ 
         name 
         > 
        
 
         < 
         value 
         >hdfs://localhost:9000</ 
         value 
         > 
        
 
         </ 
         property 
         > 
        
 
         </ 
         configuration 
         > 
        

第8步：编辑hdfs-site.xml 并在配置标签内编辑下面提到的属性：

hdfs-site.xml包含HDFS守护进程（即NameNode，DataNode，Secondary NameNode）的配置设置。它还包括HDFS的复制因子和块大小。

命令： vi hdfs-site.xml

编辑Hdfs网站 - 安装Hadoop - Edureka

hdfs-site的属性 - 安装Hadoop - Edureka

图：Hadoop安装 - 配置hdfs-site.xml

 
    
     
       
       
         <? 
         xml 
          version 
         = 
         "1.0" 
          encoding 
         = 
         "UTF-8" 
         ?> 
        
 
         <? 
         xml-stylesheet 
          type 
         = 
         "text/xsl" 
          href 
         = 
         "configuration.xsl" 
         ?> 
        
 
         < 
         configuration 
         > 
        
 
         < 
         property 
         > 
        
 
         < 
         name 
         >dfs.replication</ 
         name 
         > 
        
 
         < 
         value 
         >1</ 
         value 
         > 
        
 
         </ 
         property 
         > 
        
 
         < 
         property 
         > 
        
 
         < 
         name 
         >dfs.permission</ 
         name 
         > 
        
 
         < 
         value 
         >false</ 
         value 
         > 
        
 
         </ 
         property 
         > 
        
 
         </ 
         configuration 
         > 
        
 
     
 
    
  

第9步：编辑mapred-site.xml文件并在配置标签内编辑下面提到的属性：

mapred-site.xml包含MapReduce应用程序的配置设置，如可并行运行的JVM的数量，映射器和还原器进程的大小，进程可用的CPU内核等。

在某些情况下，mapred-site.xml文件不可用。所以，我们必须使用mapred-site.xml模板创建mapred-site.xml文件。

命令： cp mapred-site.xml.template mapred-site.xml

命令： vimapred-站点。xml。

创建mapred站点 - 安装Hadoop - Edureka

编辑mapred-site - 安装Hadoop - Edureka

mapred-site的属性 - 安装Hadoop - Edureka

图：Hadoop安装 - 配置mapred-site.xml

 
    
     
       
       
         <? 
         xml 
          version 
         = 
         "1.0" 
          encoding 
         = 
         "UTF-8" 
         ?> 
        
 
         <? 
         xml-stylesheet 
          type 
         = 
         "text/xsl" 
          href 
         = 
         "configuration.xsl" 
         ?> 
        
 
         < 
         configuration 
         > 
        
 
         < 
         property 
         > 
        
 
         < 
         name 
         >mapreduce.framework.name</ 
         name 
         > 
        
 
         < 
         value 
         >yarn</ 
         value 
         > 
        
 
         </ 
         property 
         > 
        
 
         </ 
         configuration 
         > 
        
 
     
 
    
  

第10步：编辑yarn-site.xml 并在配置标签内编辑下面提到的属性：

yarn-site.xml包含ResourceManager和NodeManager的配置设置，如应用程序内存管理大小，程序和算法所需的操作等。

命令： vi yarn-site.xml

编辑YARN网站 - 安装Hadoop - Edureka

YARN网站的属性 - 安装Hadoop - Edureka

图：Hadoop安装 - 配置yarn-site.xml

 
         <? 
         xml 
          version 
         = 
         "1.0" 
         > 
        
         < 
         configuration 
         > 
        
         < 
         property 
         > 
        
         < 
         name 
         >yarn.nodemanager.aux-services</ 
         name 
         > 
        
         < 
         value 
         >mapreduce_shuffle</ 
         value 
         > 
        
         </ 
         property 
         > 
        
         < 
         property 
         > 
        
         < 
         name 
         >yarn.nodemanager.auxservices.mapreduce.shuffle.class</ 
         name 
         > 
        
         < 
         value 
         >org.apache.hadoop.mapred.ShuffleHandler</ 
         value 
         > 
        
         </ 
         property 
         > 
        
         </ 
         configuration 
         >

第11步：编辑hadoop-env.sh并添加Java路径，如下所述：

hadoop-env.sh包含脚本中用来运行Hadoop的环境变量，如Java home path等

命令： vi hadoop-env。SH

编辑Hadoop-env - 安装Hadoop - Edureka

图：Hadoop安装 - 配置hadoop-env.sh

第12步：转到Hadoop主目录并格式化NameNode。

命令： cd

命令： cd hadoop-2.7.3

命令： bin / hadoop namenode -format

格式化NameNode - 安装Hadoop - Edureka

图：Hadoop安装 - 格式NameNode

这通过NameNode格式化HDFS。这个命令只是第一次执行。格式化文件系统意味着初始化由dfs.name.dir变量指定的目录。

永远不要格式化，运行Hadoop文件系统。你将失去所有存储在HDFS中的数据。

第十三步：一旦NameNode被格式化，转到hadoop-2.7.3 / sbin目录并启动所有的守护进程。

命令： cd hadoop-2.7.3 / sbin

您可以使用单个命令启动所有守护进程，也可以单独执行。

命令： ./ start-all.sh

上面的命令是 start-dfs.sh，start-yarn.sh＆ mr-jobhistory-daemon.sh

或者你可以单独运行所有的服务如下：

启动NameNode：

NameNode是HDFS文件系统的核心。它保存HDFS中存储的所有文件的目录树，并跟踪存储在群集中的所有文件。

命令： ./hadoop-daemon.sh start namenode

启动NameNode - 安装Hadoop - Edureka

图：Hadoop安装 - 启动NameNode

启动DataNode：

在启动时，DataNode连接到Namenode，它响应Namenode对不同操作的请求。

命令： ./hadoop-daemon.sh启动datanode

启动DataNode - 安装Hadoop - Edureka

图：Hadoop安装 - 启动DataNode

启动ResourceManager：

ResourceManager是仲裁所有可用群集资源的主机，从而有助于管理在YARN系统上运行的分布式应用程序。其工作是管理每个NodeManagers和每个应用程序的ApplicationMaster。

命令： ./yarn -daemon.sh启动resourcemanager

启动ResourceManager - 安装Hadoop - Edureka

图：Hadoop安装 - 启动ResourceManager

启动NodeManager：

每个机器框架中的NodeManager是负责管理容器的代理，监视它们的资源使用情况并将其报告给ResourceManager。

命令： ./yarn -daemon.sh启动nodemanager

启动NodeManager - 安装Hadoop - Edureka

图：Hadoop安装 - 启动NodeManager

启动JobHistoryServer：

JobHistoryServer负责处理来自客户的所有与工作历史相关的请求。

命令： ./mr-jobhistory-daemon.sh启动historyserver

第14步：要检查所有Hadoop服务已启动并正在运行，请运行以下命令。

命令： jps

开始作业记录 - 安装Hadoop - Edureka

图：Hadoop安装 - 检查守护进程

第15步：现在打开Mozilla浏览器并转到localhost：50070 / dfshealth.html以检查NameNode接口。

Hadoop NameNode UI - 安装Hadoop - Edureka

图：Hadoop安装 - 启动WebUI

恭喜，您已经成功安装了单个节点的Hadoop集群。在下一篇Hadoop教程系列博客中，我们将介绍如何在多节点集群上安装Hadoop。