史上最简单的spark教程第十六章-浅谈spark的部署模式:Hadoop-Yarn和独立集群管理(Standalone) - 代码天地

史上最简单的spark教程第十六章-浅谈spark的部署模式:Hadoop-Yarn和独立集群管理(Standalone)

其他 2019-04-22 15:40:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/youbitch1/article/details/89185098

spark部署模式:yarn和独立集群管理

史上最简单的spark教程
所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch

(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)
(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,实际项目中的应用场景)
(帮到到您请点点关注,文章持续更新中!)
Git主页 https://github.com/Mydreamandreality

spark可以运行在各种集群管理器上,并且通过集群管理器访问集群中的机器
spark本身是有集群管理器的,自身的独立集群管理器也是比较简单
如果我们有需要和别的分布式应用共享的集群,比如(spark和hadoop的MapReduce),这个时候就需要外部的资源管理器,比如yarn或者ec2,(这两个是比较常见的)

spark独立集群管理器

启动方式有两种:
- 手动启动一个主节点和多个工作节点
- 或者使用spark sbin目录下的启动脚本
启动的先决条件
- 需要我们搭建好集群(单独写一章节搭建)
- 需要设置集群ssh免密访问

配置独立集群管理器资源用量

在独立的集群资源管理器中,资源分配靠下面两个设置控制
- 执行器进程内存
  - 可以通过spark-submit的–executor-memory参数配置
  - 每个应用在每个工作节点上最多拥有一个执行器进程,默认是1GB,一般需要我们手动调整该选项
- 占用核心总数的最大值
  - 该选项是应用中所有的执行器进程占用的核心总数,此项的默认值是无限,默认的话就是我们可以在集群所有可用的节点上运行我们的执行器进程
  - 一般多用户的任务负载,我们都需要手动设置,通过spark-submit --total-executorcores 设置,或者设置配置文件中的spark.cores.max的值

如果需要验证我们的设定,访问集群管理器的网页,http://masternode:8080查看资源分配情况

独立集群管理器的高度可用性

如果希望我们的生产环境独立模式集群管理能够始终接受新的应用,就算集群中的所有节点都宕机了,虽然独立集群管理可以很好的支持工作节点的故障,但是主节点的故障转移还需要外部应用支持,比如 zookeeper 分布式服务系统维护多个主节点

外部集群管理器

Hadoop Yarn

yarn是Hadoop中的集群管理器,它的优点就是可以让多种数据处理框架运行在一个共享的资源池中,一般是安装在和HDFS同一个节点上,这样可以让spark在存储数据的节点上运行,快速访问HDFS的数据
在spark中使用yarn还是比较简单.只需要设置指向hadoop配置目录的环境变量,然后spark -submit yarn提交

如何选择合适的集群管理器

如果我们是第一次部署,那么我觉得还是使用独立集群管理器好一些,安装简单,如果我们只运行spark任务的话,独立管理器yarn是没有任何区别的
如果我们运行spark的同时还要运行hadoop 的MapReduce之类的,或者我们想要用资源调度等其他功能,那么可以考虑使用yarn之类的

在这里插入图片描述

感兴趣的同学请点个关注哦,持续更新

猜你喜欢

转载自blog.csdn.net/youbitch1/article/details/89185098

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)