Spark1.6的部署配置与运行 - 代码天地

Spark1.6的部署配置与运行

其他 2019-01-18 10:31:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/bingzige/article/details/51347278

环境

spark1.6.1

scala-2.11.8

hadoop2.6.2

zookeeper3.4.6

其他版本的hadoop，可以到这里下载对应版本的spark

http://spark.apache.org/downloads.html

下载Scala，Spark是Scala语言实现的，运行时会依赖Scala环境

http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

解压安装scala，配置环境变量

vi /etc/profile

export SCALA_HOME=$SCALA_HOME

PATH=$PATH:$SCALA_HOME/bin

保存

source /etc/profile

验证

scala -version

scala

scala > var str = "a is"+"a"

相同的scala安装目录全部复制到其它spark的slave节点，目录结构保持一致

在master主机配置spark

将spark解压，配置环境变量

vi /etc/profile

export SPARK_HOME=$SPARK_HOME

PATH=$PATH:$SPARK_HOME

使配置生效

source /etc/profile

进入spark conf目录

cd SPARK_HOME

ls

cd conf

ls

修改slaves文件

vi slaves

slave01

slave02

slave03

配置spark-env.sh

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

在最下面添加

export JAVA_HOME=

export SCALA_HOME=

export SPARK_MASTER_IP=主节点的IP地址

export SPARK_WORKER_MEMORY=1g（spark工作节点使用的最大内存）

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

将spark文件夹copy到其它机器

scp -r $SPARK_HOME slave01:~

scp -r $SPARK_HOME slave02:~

scp -r $SPARK_HOME slave03:~

在启动spark分布式集群前，首先启动slave01，slave02，slave03三个zookeeper，然后启动hbdfs

启动spark分布式集群并查看信息

cd $SPARK_HOME

cd sbin

./start-all.sh

查看

jps

页面查看集群状况

进spark集群的web管理页面，访问master:8080(要关闭防火墙，或者把端口打开)

进入spark的bin目录，启动spark-shell控制台

./spark-shell

访问http://master:4040

可以看到spark WEBUI界面，说明spark集群环境搭建成功！

猜你喜欢

转载自blog.csdn.net/bingzige/article/details/51347278

Spark1.6的部署配置与运行

windows spark1.6

spark1.6学习（二）——独立的python程序运行pyspark

Spark1.6内存管理

Spark1.6内存管理(一)

Spark Shell及Spark2.2和Spark1.6的对比

spark1.6学习（三）——spark-submit

编译基于Hadoop2.6的Spark1.6源码

Spark1.6新特性简介及个人的理解

spark1.6学习（四)——计算pv和uv的例子

spark1.6学习（一）——shell端简单使用demo

spark1.6支持 hdfs2.6.4 HA

Spark1.6内存管理(二) 实例讲解：Spark管理页面中Storage Memory是如何计算的？

spark1.6临时表uncacheTable内部bug，spark2.0后修复

spark1.6转到spark2.3总结（依赖、版本、初始化问题）

CDH集群 Spark1.6 升级到 Spark2.2 全纪录

Spark1.6之后为何使用Netty通信框架替代Akka

spark1.6源码-----任务提交与执行之RDD的构建

spark1.6源码-----任务提交与执行之任务提交

基于Spark1.6使用Spark SQL和sqlite数据库进行诗歌查询及自动集句

spark1.6升级spark2.1时候sparkstreaming程序问题总结2018

spark1.6学习（三）——spark-submit问题INFO yarn.Client: Application report for application_1540605321820_0009

cdh5.x版本将spark1.6升级为spark2之后，hue执行spark2报错问题

CDH5(5.15.0)升级jdk1.7到1.8，并且将spark1.6升级到spark2.3

spark1.6使用：读取本地外部数据，把RDD转化成DataFrame，保存为parquet格式,读取csv格式

Spark安装部署| 运行模式

"Spark 1.6 + Alluxio 1.2 HA + OFF_HEAP" 的配置

"Spark 1.6 + Alluxio 1.2 + OFF_HEAP" 的配置

01-spark简介、spark部署方式、spark运行方式

spark分布式集群部署的配置文件记录和代码运行

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)