余老师带你学习大数据-Spark快速大数据处理第七章第一节Oozie总体介绍

Oozie是解决工作流,特别是大数据处理工作流的任务框架。

工作流的必要性

第一点是在大数据处理中需要创建端到端的应用,经常处理一些定时、调度、shell脚本将流程化的节点串接在一起,如果使用传统的方式也就是脚本,但是效率比较底下,无法可视化的对脚本处理,以及相应的脚本的错误处理、通知、其他的监控通知无法做到自动化,而且不同的步骤之间的逻辑以及精细化的调度也很难做精细化的处理。所以说,我们需要在大数据工作流引擎,去支撑这种应用。
第二点如果自己做一些Spark脚本,需要通过一系列的提交,这个工作效率是非常低的。之所以为什么不模拟Spark客户端去提交信息,是因为数据处理任务仅仅是写一个处理函数,相关的步骤框架是通过Oozie满足的。这也是大数据工作引入的必须的条件。Oozie是针对大数据处理的调度器,还要适合于现有的大数据处理框架的功能。

Oozie基本概念

在这里插入图片描述

基本架构是Oozie客户端(命令行或REST接口)去提交job,给Oozie服务器,通过服务器中的调度器去调度job在Hadoop上执行,因此在Oozie上有一个做相应大数据的库。此外还有一个针对工作流引擎的数据库,存储工作流细节,这是关系型的数据库。
右侧是客户端提交任务的详细情况,客户端将job上传到HDFS上,集群上的所有节点能够通过HDFS下载job的详细信息,之后,job被提交到yarn集群上,MR,Hive,Pig,Java,Shell,Sqoop,SSH做支撑。

Oozie流程

在这里插入图片描述

详细学习内容可观看Spark快速大数据处理扫一扫~~~或者引擎搜索Spark余海峰

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_45810046/article/details/109767024