spark安装与环境配置

1.安装spark
官网 http://spark.apache.org/downloads.html
考虑到spark之后要结合hadoop一起使用，所以下载和已经安装hadoop版本均兼容的spark
(首先安装好hadoop

选择伪分布式配置（因为我是单机运行，有集群的朋友查看集群环境搭建的方法。）
```）

![这里写图片描述](https://img-blog.csdn.net/2018071820100571?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhbmRva2luZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
第一项选择默认的，第二项选择Pre-build with user-provided Hadoop，点击第三项链接下载。





<div class="se-preview-section-delimiter"></div>

sudo tar -zxf ~/Downloads/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/ #解压
cd /usr/local
sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark #改名，之后运行方便。
sudo chown -R hadoop:hadoop ./spark #hadoop为我的用户名，修改所属权限


**修改配置文件：**
编辑spark-env.sh.template，编辑前先拷贝一份命名为spark-env.sh




<div class="se-preview-section-delimiter"></div>

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
sudo gedit ./conf/spark-env.sh

加上以下信息：





<div class="se-preview-section-delimiter"></div>

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)#hadoop安装路径以自己的为准

这样Spark就可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。
**修改环境变量：**





<div class="se-preview-section-delimiter"></div>

sudo gedit ~/.bashrc
添加以下信息：
export JAVA_HOME=/usr/lib/jvm/default-java #java环境路径
export HADOOP_HOME=/usr/local/hadoop #hadoop安装路径
export SPARK_HOME=/usr/local/spark #spark安装路径
export PYTHONPATH= $SPARK_HOME/python:$ SPARK_HOME/python/lib/py4j-0.10.9-src.zip: $PYTHONPATH #py4j是pyspark必需的包，py4j的版本号以自己的为准 export PYSPARK_PYTHON=python3 #pyspark为python提供的spark的交互环境 export PATH=$ HADOOP_HOME/bin: $SPARK_HOME/bin:$ PATH

运行以下信息使环境变量立即生效：





<div class="se-preview-section-delimiter"></div>

source ~/.bashrc
“`
终端输入pyspark即可运行pyspark
这里写图片描述

spark安装与环境配置

猜你喜欢