spark安装与环境配置

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Handoking/article/details/81104405

1.安装spark
官网 http://spark.apache.org/downloads.html
考虑到spark之后要结合hadoop一起使用,所以下载和已经安装hadoop版本均兼容的spark
(首先安装好hadoop

选择伪分布式配置(因为我是单机运行,有集群的朋友查看集群环境搭建的方法。)
```)

![这里写图片描述](https://img-blog.csdn.net/2018071820100571?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhbmRva2luZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
第一项选择默认的,第二项选择Pre-build with user-provided Hadoop,点击第三项链接下载。





<div class="se-preview-section-delimiter"></div>

sudo tar -zxf ~/Downloads/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/ #解压
cd /usr/local
sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark #改名,之后运行方便。
sudo chown -R hadoop:hadoop ./spark #hadoop为我的用户名,修改所属权限


**修改配置文件:**
编辑spark-env.sh.template,编辑前先拷贝一份命名为spark-env.sh




<div class="se-preview-section-delimiter"></div>

cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
sudo gedit ./conf/spark-env.sh

加上以下信息:





<div class="se-preview-section-delimiter"></div>

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)#hadoop安装路径以自己的为准

这样Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。
**修改环境变量:**





<div class="se-preview-section-delimiter"></div>

sudo gedit ~/.bashrc
添加以下信息:
export JAVA_HOME=/usr/lib/jvm/default-java #java环境路径
export HADOOP_HOME=/usr/local/hadoop #hadoop安装路径
export SPARK_HOME=/usr/local/spark #spark安装路径
export PYTHONPATH= S P A R K H O M E / p y t h o n : SPARK_HOME/python/lib/py4j-0.10.9-src.zip: PYTHONPATH #py4j是pyspark必需的包,py4j的版本号以自己的为准  export PYSPARK_PYTHON=python3 #pyspark为python提供的spark的交互环境  export PATH= HADOOP_HOME/bin: S P A R K H O M E / b i n : PATH

运行以下信息使环境变量立即生效:





<div class="se-preview-section-delimiter"></div>

source ~/.bashrc
“`
终端输入pyspark即可运行pyspark
这里写图片描述

猜你喜欢

转载自blog.csdn.net/Handoking/article/details/81104405
今日推荐