大数据基础学习四：伪分布式Hadoop在Ubuntu上的安装流程完整步骤、易错点分析及需要注意的问题（以ubuntu-18.04.3、hadoop-3.2.1-tar.gz为例）

大数据基础学习四：伪分布式Hadoop在Ubuntu上的安装流程完整步骤、易错点分析及需要注意的问题

（以ubuntu-18.04.3、hadoop-3.2.1-tar.gz为例）

在这里插入图片描述
1、创建Hadoop用户，这里不做详细叙述，请参考我之前的帖子，Ubuntu添加和删除用户具体步骤以及可能报的错误（以ubuntu-18.04.3为例）。

2、安装Java
对于Ubuntu本身，系统可能已经预装了Java，他的JDK版本为openjdk，路径为"/usr/lib/jvm/default-java"，之后配置JAVA_HOME环境变量可设置为该值。

Apache Hadoop的2.7版和更高版本需要Java7。它是在OpenJDK和Oracle（HotSpot）的JDK / JRE上构建和测试的。早期版本（2.6和更早版本）支持Java 6。
在这里插入图片描述

（1）、输入java -version查看本地jdk版本号，没安装的话输入同样指令，根据提示下载需要版本
在这里插入图片描述
（2）、输入javac，显示命令参数列表，说明配置成功，不显示请根据提示安装

3、安装ssh服务（具体安装SSH无密码登陆可以看我之前的帖子Linux中ssh配置无密码登陆完整步骤以及需要注意的问题）
对于Hadoop的伪分布式和全分布式而言，Hadoop的名称节点（NameNode）需要启动集群中所有机器的Hadoop的守护进程，这个过程可以通过SSH登陆来实现。Hadoop并没有提供SSH输入密码登陆的形式，因此为了能够顺利登陆每台机器，需要将所有机器配置为名称节点可以无密码登陆的形式。

（1）、安装openssh-server，在终端输入sudo apt install openssh-server 本人已经安装
在这里插入图片描述
（2）、查看ssh服务是否启动，输入sudo ps -e|grep ssh，回车，有sshd，说明ssh服务已经启动。如果没有启动，输入sudo service ssh start，回车，ssh服务就会启动

4、Hadoop伪分布式安装
伪分布式安装是指在一台机器上模拟一个小的集群，但是集群只有一个节点
（1）、在Linux系统/Ubuntu上打开自带火狐浏览器，输入地址hadoop.apache.org，打开hadoop的页面，点击Download进行下载
在这里插入图片描述
选择所需版本的binary链接，进入

点击第一个镜像链接，进入下载页面

（2）、进入下载安装包的目录cd /home/bailu/下载（根据自己目录输入）

（3）、执行解压命令sudo tar -zxvf hadoop-3.2.1.tar.gz

解压命令tar zxvf中zxvf分别是什么意思
x : 从 tar 包中把文件提取出来
z : 表示 tar 包是被 gzip 压缩过的，所以解压时需要用 gunzip 解压
v : 显示详细信息
f xxx.tar.gz : 指定被处理的文件是 xxx.tar.gz

输入ll查看下载目录下的文件和目录，会看到多了一个目录hadoop-3.2.1，这是安装包解压后的目录
在这里插入图片描述
（4）、下载目录下输入sudo mv hadoop-3.2.1 /usr/local/hadoop将hadoop-3.2.1目录转移到usr/local/hadoop中

进入hadoop目录，可能会发现文件带锁，输入ll查看所有者不是本人

这时我们就需要将hadoop目录的所有者更改，根目录输入

sudo chown bailu:bailu -R /usr/local/hadoop

在这里插入图片描述
修改之后查看所有者已经更改

根目录输入cd /usr/local/hadoop进入hadoop目录，输入ll查看hadoop下目录结构

Hadoop约定目录结构分析：

bin：Hadoop最基本的管理脚本和使用脚本所在目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用hadoop
 
etc：Hadoop配置文件所在目录，包括core-site.xml, hdfs-site.xml, mapred-site.xml等从hadoop1.0继承而来的配置文件和yarn-site.xml等hadoop 2.0新增的配置文件
 
include：对外提供的编程酷头文件（具体动态库和静态库在lib目录中），这些头文件均是用c++定义的，通常用于c++程序访问hdfs或者编写mapreduce程序
 
lib：该目录包含了Hadoop对外提供的的编程动态库和静态库，与include目录中的头文件结合使用。
 
libexec：各个服务对应的shell配置文件所在目录，可用于配置日志输出目录，启动参数（比如JVM参数）等基本信息。
sbin：Hadoop管理脚本所在目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本
 
share：Hadoop各个模块编译后的jar包所在目录

Hadoop中的配置文件分析：

文件名称	格式	描述
hadoop-env.sh	Bash脚本	记录配置Hadoop运行所需的环境变量，以运行Hadoop
core-site.xml	Hadoop配置XML	Hadoop core的配置项，如HDFS和MapReduce常用的I/O设置等
hdfs-site.xml	Hadoop配置XML	Hadoop守护进程的配置项，包括NameNode、Secondary NameNode和DataNode等
mapred-site.xml	Hadoop配置XML	MapReduce守护进程的配置项，包括JobTracker和TaskTracker
masters	纯文本	运行SecondaryNameNode的机器列表（每行一个）
slaves	纯文本	运行DataNode和TaskTracker的机器列表（每行一个）
hadoop-metrics.properties	Java属性	控制metrics在Hadoop上如何发布的属性

5、设置Hadoop环境变量

编辑~/.bashrc
任意目录下输入sudo gedit ~/.bashrc
在这里插入图片描述

让环境变量立即生效source ~/.bashrc

6、准备启动Hadoop集群

任意目录下输入sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hadoop-env.sh 编辑etc/hadoop/hadoop-env.sh以定义一些参数，将原文本文件中的JAVA_HOME设置成真实的JDK地址，如下所示：
在这里插入图片描述

  ＃设置为Java安装的根目录
  export JAVA_HOME =/usr/java/latest

在这里插入图片描述
尝试以下命令：hadoop根目录下输入 bin/hadoop 这将显示hadoop脚本的用法文档：

这时我们可以查看hadoop的版本信息 ./bin/hadoop version

7、伪分布式操作

（1）、修改配置文件，对于伪分布式，仅需修改core-site.xml、hdfs-site.xml文件
etc/hadoop/core-site.xml:

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/core-site.xml

在这里插入图片描述

<name>标签设置配置项的名字，<value>设置配置项的值。
对于core-site.xml文件，只需在其中指定HDFS的地址和端口号，端口号按照官方文档设置为9000即可

etc/hadoop/hdfs-site.xml:

sudo gedit /usr/local/hadoop/hadoop-3.2.1/etc/hadoop/hdfs-site.xml

在这里插入图片描述
对于hdfs-site.xml文件，我们设置replication值为1，这也是Hadoop运行的默认最小值，它限制了HDFS文件系统中同一份数据的副本数量。这里采用伪分布式，在集群中只有一个节点，因此副本数量replication的值也只能设置为1。
（2）、在配置完成后，首先需要初始化文件系统。由于Hadoop的很多工作是在自带的HDFS文件系统上完成的，因此需要将文件系统初始化之后才能进一步执行计算任务

在Hadoop根目录执行NameNode初始化的命令如下：

./bin/hdfs namenode -format

在这里插入图片描述
遇到这一步，继续执行

成功的话，会看到"successfully formatted"和"Exitting with status"的提示，若为"Exitting with status 1"则是出错。如果出现启动错误，则可以在日志中查看错误原因

对于控制台报错请注意：

每一次的启动日志都是追加在日志文件之后，所以对于错误要拉到最后面看，对比下记录的时间就知道了。
一般出错的提示在最后面，通常是写着Fatal、Error、Warning或者Java Exception的地方。

（3）、接着开启NameNode和DataNode守护进程

./sbin/start-dfs.sh

在这里插入图片描述
运行之后，输入jps指令可以查看所有的Java进程。在正常启动时，可以得到如下类似结果：

jps(Java Virtual Machine Process Status Tool)
是java提供的一个显示当前所有java进程pid的命令，适合在linux/unix平台上简单察看当前java进程的一些简单情况。很多人都是用过unix系统里的ps命令，这个命令主要是用来显示当前系统的进程情况，有哪些进程以及进程id。 jps 也是一样，它的作用是显示当前系统的java进程情况及进程id。我们可以通过它来查看我们到底启动了几个java进程（因为每一个java程序都会独占一个java虚拟机实例）

此时，可以通过Linux本地浏览器访问Web界面（http://localhost:9870）来查看Hadoop的信息
在这里插入图片描述
如果存在DataNode启动异常时或者没有启动的问题，请查看解决Apache Hadoop启动时DataNode没有启动的问题（注意这会删除HDFS中原有的所有数据，如果原有的数据很重要请不要这样做）。

若要关闭Hadoop，则在Hadoop根目录下运行./sbin/stop-dfs.sh
在这里插入图片描述

大家如果还有什么问题、建议或者补充可以留言，看到了我会及时回复！