最全SPARK环境（集群、windows、linux）的搭建

Spark集群环境搭建
   -0. 前提：配置好Hadoop和JAVA的开发环境

   -1. 上传Spark和Scala压缩包（到~/software文件夹中）

   -2. 解压压缩包
   $ tar -zxvf ~/software/spark-1.6.1-bin-2.5.0-cdh5.3.6$cdh版本已经编译好的$.tgz -C ~/modules/
   $ tar -zxvf ~/software/scala-2.10.4.tgz -C ~/modules/

   -3. 配置环境变量
   $ vim ~/.bash_profile
# SCALA
export SCALA_HOME=/home/hadoop/modules/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

# SPARK
export SPARK_HOME=/home/hadoop/modules/spark-1.6.1-bin-2.5.0-cdh5.3.6
export PATH=$PATH:$SPARK_HOME/bin
$ source ~/.bash_profile

-4. 配置Spark相关参数项

       --1. 进入Spark根目录
       $ cd $SPARK_HOME

       --2. 修改配置文件
       $ mv conf/spark-env.sh.template conf/spark-env.sh
       $ vim conf/spark-env.sh
JAVA_HOME=/home/hadoop/modules/jdk1.7.0_79
SCALA_HOME=/home/hadoop/modules/scala-2.10.4
HADOOP_CONF_DIR=/home/hadoop/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
SPARK_LOCAL_IP=hadoop.ibeifeng.com

HADOOP_CONF_DIR: 主要是给定spark应用程序连接hadoop相关服务的配置文件所在的文件夹路径是哪个，如果不给定，那么使用默认的HDFS文件系统(file:///)
该参数的作用其实就是将连接HDFS/YARN的相关配置文件添加到spark应用的classpath中，让spark应用可以连接上hdfs或者yarn


-5. 启动HDFS
   配置了相关环境变量
   $ start-dfs.sh

-6. Spark环境测试(在同一个目录中，不能同时执行多次Spark根目录下bin文件夹中的命令，否则会报错，报错原因：环境没有集成Hive，解决方案：将Hive配置文件hive-site.xml放到$SPARK_HOME/conf文件夹中，并启动hive相关服务)
       --1. 进入Spark根目录
       $ cd $SPARK_HOME
       --2. 测试一：计算π的值
       $ ./bin/run-example SparkPi 10
       --3. 测试二：PySpark测试
       $ ./bin/pyspark
Using Python version 2.6.6 (r266:84292, Nov 22 2013 12:16:22)
SparkContext available as sc, HiveContext available as sqlContext.
>>>
       >>> sc
       >>> rdd = sc.textFile("/test/input/wc.txt")
       >>> rdd.collect()
       备注：还可以通过web页面查看spark应用的执行情况
       textFile: 作用是按照行读取文本文件数据，形成一个RDD，RDD中的元素一行一行的文本

----------------------------------------------------------
Spark开发环境搭建(Windows)
   备注：对于spark1.6.1版本而言，建议Python版本2.7或者3.5，Python3.6支持不太友好。
   -1. 安装Java和Scala

   -2. 解压Spark安装包，配置Spark开发环境
   将其安装包解压到一个没有中文没有空格的文件夹即可
   eg: D:\ProgramFiles\spark-1.6.1-bin-2.5.0-cdh5.3.6
   -3. 配置Hadoop开发环境
   a. 解压hadoop-2.5.0-cdh5.3.6.tar.gz压缩包到某一个路径下，比如:C:\Program Files\hadoop-2.5.0-cdh5.3.6
   b. 解压hadoop-common-2.2.0-bin-32.rar压缩包某一个文件夹中，然后将该文件夹中的所有文件(eg: xxx.dll等，总共七个文件)全部copy到hadoop的解压文件夹下的bin文件夹中，eg：C:\Program Files\hadoop-2.5.0-cdh5.3.6\bin
   c. 配置HADOOP_HOME环境变量，变量的值为hadoop的解压文件夹路径，eg:C:\Program Files\hadoop-2.5.0-cdh5.3.6

   -4. 配置Python开发插件
   从刚刚解压的spark根目录中将python\lib文件夹中的两个压缩包解压后放到python的对应目录中：
   --a. 解压py4j-0.9-src.zip和pyspark.zip
       --b. 解压后的内容(py4j和pyspark两个文件夹)放到：C:\Python3.5\Lib\site-packages

   -5. 完成环境搭建

----------------------------------------------------------
Spark开发环境搭建(Linux)
   备注：对于spark1.6.1版本而言，建议Python版本2.7或者3.5，Python3.6支持不太友好。
   -1. 安装Java和Scala

   -2. 解压Spark安装包，配置Spark开发环境
   将其安装包解压到一个没有中文没有空格的文件夹即可
   eg: /home/pyspark04/spark-1.6.1-bin-2.5.0-cdh5.3.6
   -3. 配置Hadoop开发环境
   a. 解压hadoop-2.5.0-cdh5.3.6.tar.gz压缩包到某一个路径下，比如:/home/pyspark04/hadoop-2.5.0-cdh5.3.6
   b. 配置HADOOP_HOME环境变量，变量的值为hadoop的解压文件夹路径，eg:/home/pyspark04/hadoop-2.5.0-cdh5.3.6

   -4. 配置Python开发插件
   从刚刚解压的spark根目录中将python\lib文件夹中的两个压缩包解压后放到python的对应目录中：
   --a. 解压py4j-0.9-src.zip和pyspark.zip
       --b. 解压后的内容(py4j和pyspark两个文件夹)放到：/usr/lib64/python2.6/site-packages

   -5. 完成环境搭建

最全SPARK环境（集群、windows、linux）的搭建

猜你喜欢