大数据处理框架技术概览

flume——日志采集框架

flume可以适用于大部分的日常数据采集场景

  1. Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
  2. Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统
  3. 一般的采集需求,通过对flume的简单配置即可实现
  4. Flume针对特殊场景也具备良好的自定义扩展能力

azkaban、oozie——工作流调度器

Azkaban介绍

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

oozie介绍

Oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务,如 MapReducePig等。那么,对于OozieWorkflow中的一个个的action(可以理解成一个个MapReduce任务)Oozie是根据什么来对action的执行时间与执行顺序进行管理调度的呢?答案就是我们在数据结构中常见的有向无环图(DAGDirect Acyclic Graph)的模式来进行管理调度的,我们可以利用HPDL语言(一种xml语言)来定义整个workflow,实现工作流的调度oozie的架构以及执行流程

Azkaban与Oozie对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。

详情如下:

1.功能

两者均可以调度mapreduce,pig,java,脚本工作流任务

两者均可以定时执行工作流任务

2.工作流定义

Azkaban使用Properties文件定义工作流

Oozie使用XML文件定义工作流

3.工作流传参

Azkaban支持直接传参,例如${input}

Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}

4.定时执行

Azkaban的定时执行任务是基于时间的

Oozie的定时执行任务基于时间和输入数据

5.资源管理

Azkaban有较严格的权限控制,如用户对工作流进行读/写/执行等操作

Oozie暂无严格的权限控制

6.工作流执行

Azkaban有两种运行模式,分别是solo server mode(executor server和web server部署在同一台节点)和multi server mode(executor server和web server可以部署在不同节点)

Oozie作为工作流服务器运行,支持多用户和多工作流

7.工作流管理

Azkaban支持浏览器以及ajax方式操作工作流

Oozie支持命令行、HTTP REST、Java API、浏览器操作工作流

sqoop——数据迁移

sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据”的工具。工作机制是将导入或导出命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

hue——web界面集成框架

全称:hadoop user  Experiense  
主要用于与我们其他各个框架进行整合,例如hdfs,mapreduce,hive,impala,oozie,spark
整合完成之后,只需要在我们 hue这一个框架提供的web界面里面就可以操作所有其他的框架

Kafka——消息队列

Apache Kafka是一个分布式消息发布订阅系统,最初由linkedin公司开发的,使用scala语言编写。Kafka系统快速、可扩展、可持久化并且性能稳定,具有分区、可复制和可容错的可靠性,可以用于搜索日志,监控日志,访问日志等。

HBase——非关系型数据库

Hbase是大数据领域里面一个建立在HDFS之上的分布式面向列的nosql非关系型的数据库系统,是横向扩展的,属于KV结构数据,原生不支持标准SQL。

HBase可以提供快速随机访问海量结构化数据。它利用了HDFS提供的容错能力。

HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,是HBase基于列的而不是基于行的模式。

猜你喜欢

转载自blog.csdn.net/qq_40995238/article/details/112448213