1. 解压缩到/home/hadoop/
- spark-2.2.0
- scala-2.11.7
2. 配置环境变量/etc/profile
- 为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.sh
- scala写入bin
- spark写入bin和sbin
3. 修改spark配置文件 spark-env.sh
- 由模板spark-env.sh.template改名而来
- 文件尾行写入以下配置参数
export JAVA_HOME=/usr/java/jdk1.8.0_144
export SCALA_HOME=/home/hadoop/scala-2.11.7
export HADOOP_HOME=/home/hadoop/hadoop-2.9.0
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.0/etc/hadoop
export SPARK_MASTER_IP=ghym
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
4. 修改spark配置文slaves
- 由 slaves.template 改名而来
- 文件尾行写入工作节点IP名
5. 启动测试spark集群是否配置成功
- 启动hadoop
- 主节点输入命令start-spark-all.sh
- jps查看各节点进程
- 浏览器http://ghym:8080查看spark集群当前状态
6. 启动shell环境并退出
- 进入shell环境命令: spark-shell –master spark://ghym:7077,默认端口号7077
- 退出命令: :quit
- 非正常退出断线或Ctrl+C,再次进入会报错,解决方法:
- 查看hive目录下是否有临时生成的metastore_db目录, 这是spark创建的临时目录,非正常退出时该目录没来得及删除,这里手动删除
- 需要查看端口是否被占用,占用则kill掉进程