Apache kylin内部解剖

一、Apache kylin的核心概念

表（Table ）：表定义在hive中，是数据立方体（Data cube）的数据源，在build cube 之前，必须同步在 kylin中。
模型（model）:模型描述了一个星型模式的数据结构，它定义了一个事实表（Fact Table： Wiki:Fact_table）和多个查找表（Lookup Table：Wiki:Lookup_table）的连接和过滤关系。
立方体（Cube）：它定义了使用的模型、模型中的表的维度（dimension:Wiki:dimension）、度量（measure:Wiki:measure ,一般指聚合函数，如：sum、count、average等）、如何对段分区（ segments partition）、合并段（segments auto-merge）等的规则。
立方体段（Cube Segment）：它是立方体构建（build）后的数据载体，一个 segment 映射hbase中的一张表，立方体实例构建（build）后，会产生一个新的segment，一旦某个已经构建的立方体的原始数据发生变化，只需刷新（fresh）变化的时间段所关联的segment即可。
作业（Job）：对立方体实例发出构建（build）请求后，会产生一个作业。该作业记录了立方体实例build时的每一步任务信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为RUNNING 时，表明立方体实例正在被构建；若作业状态信息为FINISHED ，表明立方体实例构建成功；若作业状态信息为ERROR ，表明立方体实例构建失败！作业的所有状态如下：

NEW - This denotes one job has been just created.
PENDING - This denotes one job is paused by job scheduler and waiting for resources.
RUNNING - This denotes one job is running in progress.
FINISHED - This denotes one job is successfully finished.
ERROR - This denotes one job is aborted with errors.
DISCARDED - This denotes one job is cancelled by end users.

二、Apache kylin的工作机制

Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多个维度组合的度量，然后将结果保存在hbase中，对外暴露JDBC、ODBC、Rest API的查询接口，即可实现实时查询。

数据立方体一般由Hive中的一个事实表,多个查找表组成。预计算的过程在kylin中就是 Cube 的build过程，如下图：

当前Apache kylin构建（build）数据立方体，采用逐层算法（By Layer Cubing）。未来的发布中将采用快速立方体算法（Fast Cubing）。下面简单介绍一下逐层算法：

一个完整的数据立方体，由N-dimension立方体，N-1 dimension立方体，N-2维立方体，0 dimension立方体这样的层关系组成，除了N-dimension立方体，基于原数据计算，其他层的立方体可基于其父层的立方体计算。所以该算法的核心是N次顺序的MapReduce计算。

在MapReduce模型中，key由维度的组合的构成，value由度量的组合构成，当一个Map读到一个key-value对时，它会计算所有的子立方体（child cuboid），在每个子立方体中，Map从key中移除一个维度，将新key和value输出到reducer中。直到当所有层计算完毕，才完成数据立方体的计算。过程如下图：

在数据立方体计算完毕后，有一个任务（Convert Cuboid Data to HFile），其职责是将reduce输出的运算结果（Cuboid Data）转化成Hbase中的存储载体（HFile），最终将HFile 加载到Hbase表中便于查询。其中表的rowkey由维度组合而成，维度组合对应的度量值构成了column family，为了查询减少存储空间，会对RowKey和column family的值进行编码，默认编码是Snappy。

整个数据立方体的构建流程如下：

三、Apache kylin的架构及核心组件

Apache kylin 架构如下：

核心组件：

数据立方体构建引擎（Cube Build Engine）：当前底层数据计算引擎支持MapReduce1、MapReduce2、Spark等。
Rest Server：当前kylin采用的rest API、JDBC、ODBC接口提供web服务。
查询引擎（Query Engine）：Rest Server接收查询请求后，解析sql语句，生成执行计划，然后转发查询请求到Hbase中，最后将结构返回给 Rest Server。

整个数据立方体的构建流程如下：

三、Apache kylin的架构及核心组件

Apache kylin 架构如下：

核心组件：

数据立方体构建引擎（Cube Build Engine）：当前底层数据计算引擎支持MapReduce1、MapReduce2、Spark等。
Rest Server：当前kylin采用的rest API、JDBC、ODBC接口提供web服务。
查询引擎（Query Engine）：Rest Server接收查询请求后，解析sql语句，生成执行计划，然后转发查询请求到Hbase中，最后将结构返回给 Rest Server。