spark是新一代的大数据组件,包括sparkcore, sparksql,sparkstreaming,mllib,graphx等,在实际生产中作用极大,与HDFS, Hbase, hive等都可以交互。本文将阐述如何在CentOS7中安装spark。
1 系统、软件以及前提约束
- CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置
- hadoop已经安装完毕并启动
https://www.jianshu.com/p/b7ae3b51e559 - spark-2.2.1-bin-hadoop2.7、scala-2.12.2
spark及scala下载链接:https://pan.baidu.com/s/1c_skDYabCRSkS5hRUB6lFQ
提取码:a00t
spark-2.2.1-bin-hadoop2.7.tgz已上传到192.168.100.200的/root目录下
scala-2.12.2.tgz已上传到192.168.100.200的/root目录下 - 为去除权限对操作的影响,所有操作都以root进行
2 操作
- 1.使用xshell以root登录到192.168.100.200
- 2.解压
# 进入家目录
cd
# 解压spark
tar -xvf spark-2.2.1-bin-hadoop2.7.tgz
# 解压scala
tar -xvf scala-2.12.2.tgz
- 3.配置环境变量
# 进入家目录
cd
# 修改 .bashrc,保存,退出
export JAVA_HOME=/root/jdk1.8.0_152
export SCALA_HOME=/root/scala-2.12.2
export SPARK_HOME=/root/spark-2.2.1-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$SCALA_HOME/bin:$JAVA_HOME/bin:$PATH
# 使生效
source .bashrc
- 4.修改spark-env.sh
# 进入spark配置目录
cd /root/spark-2.2.1-bin-hadoop2.7/conf
# 拷贝spark-env.sh
cp spark-env.sh.template spark-env.sh
#修改spark-env.sh,保存,退出
export JAVA_HOME=/root/jdk1.8.0_152
export SPARK_HOME=/root/spark-2.2.1-bin-hadoop2.7
export SPARK_MASTER_IP=danji
export SPARK_EXECUTOR_MEMORY=1G
export SCALA_HOME=/root/scala-2.12.2
export HADOOP_HOME=/root/hadoop-2.5.2
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
-
- 启动spark
# 进入spark的启动目录
cd /root/spark-2.2.1-bin-hadoop2.7/sbin
# 启动
./start-all.sh
-
- 验证
# 查看当前进程
jps
# 结果如下就说明启动成功,其中Master,Worker就是spark的进程,其他的是Hadoop的进程。
10193 NameNode
10515 SecondaryNameNode
10310 DataNode
11447 Worker
11369 Master
10798 NodeManager
15790 Jps
10687 ResourceManager
以上,就是在CentOS7当中安装spark的过程。
转载于:https://www.jianshu.com/p/8384ab76e8d4