下载安装包
Spark
分布式计算
spark-2.3.2-bin-hadoop2.7,安装包大小:220M
支持Hadoop 2.7以后的版本
Scala
Scala环境,Spark的开发语言
scala-2.12.8.tgz,安装包大小:20M
Hadoop
分布式存储(计算)
hadoop-2.7.7.tar.gz,安装包大小:209M
Java
Java环境
Java SE Development Kit 8u192,安装包大小:187M
ZooKeeper
注册中心
zookeeper-3.4.13.tar.gz,安装包大小:36M
配置
首先需要配置环境变量
环境变量
打开并编辑~/.bashrc
文件,在末尾添加以下内容:
# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin
# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin
# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin
# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin
# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
Host
这里需要设置Host,一个是Hadoop的Name-Node、Data-Node,一个spark的Master、Worker。
# spark
192.168.1.161 master
192.168.1.165 worker-165
192.168.1.166 worker-166
192.168.1.167 worker-167
# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-155
192.168.1.156 data-node-156
192.168.1.157 data-node-157
spark
conf/slaves
worker-165
worker-166
worker-167
待补充 。。。
hadoop
etc/hadoop/slaves
data-node-155
data-node-156
data-node-157
待补充 。。。
验证
hadoop
sbin/hdfs-start.sh && sbin/yarn-start.sh
spark
sbin/start-all.sh
待补充 。。。