内存计算框架Spark学习笔记(1)—— Spark Standalone模式配置

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012292754/article/details/86577401

1 Spark 和 MapReduce 对比

MapReduce Spark
数据存储结构:磁盘HDFS文件系统的 split 使用内存构建RDD
编程范式: Map + Redcuce DAG: Transformation + action
计算中间数据落磁盘,IO 即序列化,反序列化代价大 计算中间数据在内存
Task 以进程的方式维护,任务启动就有数秒 Task 以线程的方式维护,对小数据集的读取达到亚秒级的延迟

2 Spark Standalone 模式配置

  • spark-env.sh
JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64
SCALA_HOME=/home/hadoop/apps/scala-2.11.12
LD_LIBRARY_PATH=/home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/lib/native

HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.6.0-cdh5.7.0/etc/hadoop

SPARK_MASTER_HOST=node1
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=2
SPARK_WORKER_MEMORY=2g
  • 启动
    在这里插入图片描述
  • http://node1:8080/
    在这里插入图片描述
  • spark-defaults.conf (spark-shell 默认启动时为 spark 集群)
spark.master                     spark://node1:7077

猜你喜欢

转载自blog.csdn.net/u012292754/article/details/86577401