linux下Spark安装与环境配置

Hadoop测试：

按照上一篇文章安装完Hadoop集群之后，启动hdfs文件系统及yarn资源管理器（也可通过start-dfs.sh和start-yarn.sh完成）：

start-all.sh

之后通过jps查看是否成功：

jps

成功之后如下图：

点击链接https://www.scala-lang.org/download/2.12.10.html，下载对应版本scala（本文选择scala 2.12.10）：

下载好后解压到：/usr/local/

sudo tar zxvf ~/Downloads/scala-2.12.10.tgz -C /usr/local/

删除安装包：

rm ~/Downloads/scala-2.12.10.tgz

进入到减压目录并重命名：

cd /usr/local/sudo mv scala-2.12.10 scal

配置环境变量：

sudo vim /etc/profile

执行source命令并测试：

source /etc/profilescala -version

spark安装：

点击链接 http://spark.apache.org/downloads.html 进行下载（本文选择2.4.4版本）：

下载好后解压至/usr/local/：

sudo tar zxvf ~/Downloads/spark-2.4.4-bin-hadoop2.7.tgz  -C /usr/local

删除安装包：

rm spark-2.4.4-bin-hadoop2.7.tgz

进入到解压目录并重命名：

cd /usr/local/sudo mv spark-2.4.4-bin-hadoop2.7 spark

配置环境：

sudo vim /etc/profile

执行source更新命令：

source /etc/profile

配置spark-env.sh：

进入到配置目录并打开spark-env.sh文件：

cd spark/confcp spark-env.sh.template spark-env.shvim spark-env.sh

添加以下内容：

export JAVA_HOME=/usr/local/java/jdk1.8.0_241export HADOOP_HOME=/usr/local/hadoopexport HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SCALA_HOME=/usr/local/scalaexport SPARK_HOME=/usr/local/sparkexport SPARK_MASTER_IP=127.0.0.1export SPARK_MASTER_PORT=7077export SPARK_MASTER_WEBUI_PORT=8099export SPARK_WORKER_CORES=3export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=5Gexport SPARK_WORKER_WEBUI_PORT=8081export SPARK_EXECUTOR_CORES=1export SPARK_EXECUTOR_MEMORY=1Gexport LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

配置slaves：

cp slaves.template  slavesvim slaves

注：我们会发现slaves文件里为localhost即本机地址，当前为伪分布式，因此不用修改

启动sbin目录下的start-master.sh以及start-slaves.sh（前提是hadoop已启动）：

cd /usr/local/spark/./sbin/start-master.sh./sbin/start-slaves.sh

通过jps命令会发现多出worker一项

通过spark的web界面 http://127.0.0.1:8099/ 可以查看spark集群当前概况：

启动bin目录下的spark-shell：

./bin/spark-shell

即会出现spark scala的命令行执行环境：

同时我们还可通过spark-shell的web管理界面进行任务可视化监控：

同时，也为了方便可以修改Bash环境变量配置：

vim /etc/bash.bashrc

添加相应环境变量：

export SPARK_HOME=/usr/local/sparkexport PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH

执行source更新命令：

source /etc/bash.bashrc

至此linux环境下Hadoop与Spark安装结束，下回将对这些框架的使用做进一步的介绍。

数挖小飞飞

发布了21 篇原创文章 · 获赞 8 · 访问量 6631

私信关注

linux下Spark安装与环境配置

启动sbin目录下的start-master.sh以及start-slaves.sh（前提是hadoop已启动）：

猜你喜欢