Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

访问Spark的官网，阅读Spark的安装过程，发现Spark需要使用到hadoop，Java JDK等，当然官网也提供了Hadoop free的版本。本文还是从安装Java JDK开始，逐步完成Spark的单机安装。

1、Java JDK8的安装

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

下载之后的包放到某个目录下，此处放在/opt/java目录

使用命令：tar -zxvf jdk-8u231-linux-x64.tar.gz 解压缩

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

修改配置文件/etc/profile，使用命令：sudo nano /etc/profile

在文件末尾增加以下内容（具体路径依据环境而定）：

export JAVA_HOME=/opt/java/jdk1.8.0_231
export JRE_HOME=/opt/java/jdk1.8.0_231/jre
export PATH=${JAVA_HOME}/bin:$PATH

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

保存退出，在终端界面使用命令： source /etc/profile 使配置文件生效。

使用java -version验证安装是否成功，以下回显表明安装成功了。

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

2、安装Hadoop

前往官网https://hadoop.apache.org/releases.html下载hadoop，此处选择版本2.7.7

http://www.apache.org/dist/hadoop/core/hadoop-2.7.7/hadoop-2.7.7.tar.gz

hadoop需要ssh免密登陆等功能，因此先安装ssh。

使用命令：

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

将下载的包放到某个目录下，此处放在/opt/hadoop

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

使用命令：tar -zxvf hadoop-2.7.7.tar.gz 进行解压缩

此处选择伪分布式的安装方式（Pseudo-Distributed)

修改解压后的目录下的子目录文件 etc/hadoop/hadoop-env.sh，将JAVA_HOME路径修改为本机JAVA_HOME的路径，如下图：

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

配置Hadoop的环境变量

使用命令：

添加以下内容：

export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7

修改PATH变量，添加hadoop的bin目录进去

export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

修改解压后的目录下的子目录文件 etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

如下图：

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

修改解压后的目录下的子目录文件 etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

如下图：

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

设置免密登陆

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

使用命令：ssh localhost 验证是否成功，如果不需要输入密码即可登陆说明成功了。

* Documentation: https://help.ubuntu.com
* Management: https://landscape.canonical.com
* Support: https://ubuntu.com/advantage

* Canonical Livepatch is available for installation.
- Reduce system reboots and improve kernel security. Activate at:
https://ubuntu.com/livepatch

188 个可升级软件包。
0 个安全更新。

Your Hardware Enablement Stack (HWE) is supported until April 2023.
Last login: Sat Nov 30 23:25:35 2019 from 127.0.0.1

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

接下来需要验证Hadoop的安装

a、格式化文件系统

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

b、启动Namenode和Datanode

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

c、浏览器访问http://localhost:50070

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

3、Scala安装：

下载地址：https://www.scala-lang.org/download/2.11.8.html

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

下载好后解压到：/opt/scala

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

配置环境变量：

添加：

export SCALA_HOME=/opt/scala/scala-2.11.8

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

source /etc/profile

4、安装spark

前往spark官网下载spark

https://spark.apache.org/downloads.html

此处选择版本如下：

spark-2.4.4-bin-hadoop2.7

将spark放到某个目录下，此处放在/opt/spark

使用命令：tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz 解压缩即可

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

使用命令： ./bin/run-example SparkPi 10 测试spark的安装

配置环境变量SPARK_HOME

export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${SPARK_HOME}/bin:$PATH

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

source /etc/profile

配置配置spark-env.sh

进入到spark/conf/

sudo cp /opt/spark/spark-2.4.4-bin-hadoop2.7/conf/spark-env.sh.template /opt/spark/spark-2.4.4-bin-hadoop2.7/conf/spark-env.sh

export JAVA_HOME=/opt/java/jdk1.8.0_231
export HADOOP_HOME=/opt/hadoop/hadoop-2.7.7
export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.7/etc/hadoop
export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export SCALA_HOME=/opt/scala/scala-2.11.8
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

Java，Hadoop等具体路径根据自己实际环境设置。

启动bin目录下的spark-shell

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

可以看到已经进入到scala环境，此时就可以编写代码啦。

spark-shell的web界面http://127.0.0.1:4040

Ubuntu 18.04下搭建单机Hadoop和Spark集群环境

暂时先这样，如有什么疑问，请在Linux公社下面的评论栏里提出。