CentOS7环境下Spark集群的配置

1. 解压缩到/home/hadoop/

  1. spark-2.2.0
  2. scala-2.11.7

2. 配置环境变量/etc/profile

  1. 为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.sh
  2. scala写入bin
  3. spark写入bin和sbin

3. 修改spark配置文件 spark-env.sh

  1. 由模板spark-env.sh.template改名而来
  2. 文件尾行写入以下配置参数
export JAVA_HOME=/usr/java/jdk1.8.0_144
export SCALA_HOME=/home/hadoop/scala-2.11.7
export HADOOP_HOME=/home/hadoop/hadoop-2.9.0
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.0/etc/hadoop
export SPARK_MASTER_IP=ghym#主节点IP名
export SPARK_WORKER_MEMORY=1g#工作节点内存大小
export SPARK_WORKER_CORES=1#工作节点CPU数
export SPARK_WORKER_INSTANCES=1#工作节点作业数

4. 修改spark配置文slaves

  1. 由 slaves.template 改名而来
  2. 文件尾行写入工作节点IP名

5. 启动测试spark集群是否配置成功

  1. 启动hadoop
  2. 主节点输入命令start-spark-all.sh
  3. jps查看各节点进程
  4. 浏览器http://ghym:8080查看spark集群当前状态

6. 启动shell环境并退出

  1. 进入shell环境命令: spark-shell –master spark://ghym:7077,默认端口号7077
  2. 退出命令: :quit
  3. 非正常退出断线或Ctrl+C,再次进入会报错,解决方法:
    1. 查看hive目录下是否有临时生成的metastore_db目录, 这是spark创建的临时目录,非正常退出时该目录没来得及删除,这里手动删除
    2. 需要查看端口是否被占用,占用则kill掉进程

猜你喜欢

转载自blog.csdn.net/wxfghy/article/details/80887350