Azkaban工作流调度

一.工作流程

1.工作流产生背景
工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。
工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。
一个完整的数据分析系统通常都是由多个前后依赖的模块组合构成的:数据采集、数据预处理、数据分析、数据展示等。各个模块单元之间存在时间先后依赖关系,且存在着周期性重复。
2.工作流调度实现方式
简单的任务调度:直接使用linux的crontab来定义,但是缺点也是比较明显,无法设置依赖。
复杂的任务调度:自主开发调度平台,使用开源调度系统,比如azkaban、Apache Oozie、Cascading、Hamake等。
3.工作流调度工具之间对比
下面的表格对四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考。

特性

Hamake

Oozie

Azkaban

Cascading

工作流描述语言

XML

XML (xPDL based)

text file with key/value pairs

Java API

依赖机制

data-driven

explicit

explicit

explicit

是否要web容器

No

Yes

Yes

No

进度跟踪

console/log messages

web page

web page

Java API

Hadoop job调度支持

no

yes

yes

yes

运行模式

command line utility

daemon

Daemon(守护进程)

API

Pig支持

yes

yes

yes

yes

事件通知

no

no

no

yes

需要安装

no

yes

yes

no

支持的hadoop版本

0.18+

0.20+

currently unknown

0.18+

重试支持

no

workflownode evel

yes

yes

运行任意命令

yes

yes

yes

yes

Amazon EMR支持

yes

no

currently unknown

yes

二.Azkaban调度器

1.Azkaban介绍
Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

Azkaban功能特点:

  • 提供功能清晰,简单易用的Web UI界面
  • 提供job配置文件快速建立任务和任务之间的依赖关系
  • 提供模块化和可插拔的插件机制,原生支持command、Java、Hive、Pig、Hadoop
  • 基于Java开发,代码结构清晰,易于二次开发

2.Azkaban原理架构

mysql服务器: 存储元数据,如项目名称、项目描述、项目权限、任务状态、SLA规则等

AzkabanWebServer:对外提供web服务,使用户可以通过web页面管理。职责包括项目管理、权限授权、任务调度、监控executor。

AzkabanExecutorServer:负责具体的工作流的提交、执行。

三.Azkaban三种部署模式

solo server mode

该模式中webServer和executorServer运行在同一个进程中,进程名是AzkabanSingleServer。使用自带的H2数据库这种模式包含Azkaban的所有特性,但一般用来学习和测试

two-server mode

该模式使用MySQL数据库, Web Server和Executor Server运行在不同的进程中。

multiple-executor mode

该模式使用MySQL数据库, Web Server和Executor Server运行在不同的机器中。且有多个Executor Server该模式适用于大规模应用。

四.Azkaban源码编译

Azkaban3.x在安装前需要自己编译成二进制包。

并且提前安装好Maven、Ant、Node等软件,具体请参考附件资料

编译环境

yum install –y git

yum install –y gcc-c++

​​​​​​​下载源码解压

wget https://github.com/azkaban/azkaban/archive/3.51.0.tar.gz

tar -zxvf 3.51.0.tar.gz

cd ./azkaban-3.51.0/

​​​​​​​编译源码

./gradlew build installDist -x test

Gradle是一个基于Apache Ant和Apache Maven的项目自动化构建工具。-x test 跳过测试。(注意联网下载jar可能会失败、慢)

​​​​​​​编译后安装包路径

编译成功之后就可以在指定的路径下取得对应的安装包了。

#solo-server模式安装包路径

azkaban-solo-server/build/distributions/

#two-server模式和multiple-executor模式web-server安装包路径

azkaban-web-server/build/distributions/

#two-server模式和multiple-executor模式exec-server安装包路径

azkaban-exec-server/build/distributions/

azkaban-db/build/distributions/

数据库相关安装包路径

五.安装部署

  1. solo-server模式部署

节点规划

HOST

角色

node-1

Web Server和Executor Server同一进程

​​​​​​​解压配置

mkdir /export/servers/azkaban

tar -zxvf azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz –C /export/servers/azkaban/

 

vim conf/azkaban.properties

default.timezone.id=Asia/Shanghai #修改时区

 

vim  plugins/jobtypes/commonprivate.properties

添加:memCheck.enabled=false

azkaban默认需要3G的内存,剩余内存不足则会报异常

 

​​​​​​​启动验证

cd azkaban-solo-server-0.1.0-SNAPSHOT/

bin/start-solo.sh

注:启动/关闭必须进到azkaban-solo-server-0.1.0-SNAPSHOT/目录下。

AzkabanSingleServer(对于Azkaban solo‐server模式,Exec Server和Web Server在同一个进程中)

​​​​​​​登录web页面

访问Web Server=>http://node-1:8081/ 默认用户名密码azkaban

​​​​​​​初体验测试

http://node-1:8081/index登录=>Create Project=>Upload zip包 =>execute flow执行一步步操作即可。

创建两个文件one.job  two.job,内容如下,打包成zip包。

cat one.job

    type=command

    command=echo "this is job one"

cat two.job

    type=command

    dependencies=one

    command=echo "this is job two"

创建工程:

上传zip压缩包:

execute执行:

执行页面:

执行结果查看:

 

发布了80 篇原创文章 · 获赞 168 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/weixin_44036154/article/details/103466523