大数据学习(十八)spark部署

前期准备

终于到了spark了,前面我说过了hadoop中的Mapreduce计算框架有比较明显的短板。接下来我将用一些blog分享spark方面的一些我觉得重要的东西。

这次我们要安装spark
所以你的服务器上后者虚拟机上需要有以下环境

  • JDK
  • 配置SSH免密

当然为了能更方便还是建议大家在host文件中配置一下主机名和Ip的映射。

伪分布模式部署

  1. 首先我们下载spark的tar包,大家到官网就可以找到,然后上传到服务器上。

这里我也放在网盘上了
链接:https://pan.baidu.com/s/1_avLEAVL_Rlm4OaFf61kew
提取码:aahf
2. 解压。

解压之后进入spark的根目录。

接下来就要敲黑板划重点了:

  • 修改conf文件目录下的配置文件

首先将spark-env.sh.template 修改名字为spark-env.sh
vi 进入

  1. 配置JAVA路径
    export JAVA_HOME=你的JDK路径
  2. 配置主节点名称(伪分布就是当前操作的主机名)
    export SPARK_MASTER_HOST=主机名
    export SPARK_MASTER_PORT=7077
  3. 配置slaves,首先将slaves.template 改名字为slaves
    配置从节点主机名
    例如:node1(这是我的主机名)
  4. 启动
    进入sbin目录,
    ./start-all.sh 启动spark伪分布模式

注:可以从web dashBoard上查看,输入IP:8080,就可以查看。

停止的话使用stop-all.sh命令。

注:
spark有几种运行模式,这里我配置的是standalone,其他的模式后面我再做分享

全分布模型部署

其实全分布和伪分布部署的差别并不大,首先,我们将上面得到的spark目录全部拷贝到另外两个服务器或者虚拟机,用scp或者其他什么方式。然后修改conf配置:

只需要将slaves修改为slaver节点的主机名,
我配置了一个4台虚拟机的集群所以在slaves中写

node2
node3
node4

然后按照上述的方法启动就可以正常运行了。

发布了42 篇原创文章 · 获赞 46 · 访问量 6629

猜你喜欢

转载自blog.csdn.net/qq_40742298/article/details/104227980