本系列最后一篇
spark是可以发布到hadoop上运行的数据分析工具。
spark是去官网上下载,地址:http://spark.apache.org/downloads.html
然后解压缩
$ tar -xvf spark-1.5.2-bin-hadoop2.4.tgz
$ sudo mv spark-1.5.2-bin-hadoop2.4 /srv/spark-1.5.2
$ ln -s /srv/spark-1.5.2 /srv/spark
配置环境变量
$ sudo su hadoop
$ vim ~/.bashrc
添加以下配置
export SPARK_HOME=/srv/spark
export PATH=$PATH:$SPARK_HOME/bin
使配置生效
$ source ~/.bashrc
运行Spark`
$ pyspark
这个应该是最省心的一个安装了。
到目前为止整个伪分布式Hadoop以及做数据分析要用的应用已经安装完成,祝大家使用愉快~