Kylin深入前对多维分析技术概念的理解

一、数据仓库

1.数据仓库是面向主题的；数据仓库是集成的，数据仓库的数据有来自于分散的操作型数据，将所需数据从原来的数据中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库；
2.数据仓库是不可更新的，数据仓库主要是为决策分析提供数据，所涉及的操作主要是数据的查询；
3.建设步骤：
收集和分析业务需求——建立数据模型和数据仓库的物理设计——定义数据源——定义数据源——从操作型数据库中抽取、净化、和转换数据到数据仓库——选择访问和报表工具——选择数据库连接软件——选择数据分析和数据展示软件——更新数据仓库

二、OLAP

1.维（Dimension）：是人们观察数据的特定角度，是考虑问题时的一类属性，属性集合构成一个维（时间维、地理维等）。
2.维的层次（Level）：人们观察数据的某个特定角度（即某个维）还可以存在细节程度不同的各个描述方面（时间维：日期、月份、季度、年）。
3.维的成员（Member）：维的一个取值，是数据项在某维中位置的描述。（“某年某月某日”是在时间维上位置的描述）。
4.度量（Measure）：多维数组的取值。（2000年1月，上海，笔记本电脑，0000）。

OLAP的基本多维分析操作有钻取（Drill-up和Drill-down）、切片（Slice）和切块（Dice）、以及旋转（Pivot）等。

1.钻取：是改变维的层次，变换分析的粒度。它包括向下钻取（Drill-down）和向上钻取（Drill-up）/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而Drill-down则相反，它从汇总数据深入到细节数据进行观察或增加新维。
2.切片和切块：是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个或以上，则是切块。
3.旋转：是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

三、星型模型

星形模式是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实（Fact），它们一般都是数值或其他可以进行计算的数据；而维度都是文字、时间等类型的数据，按这种方式组织好数据我们就可以按照不同的维（事实表主键的部分或全部）来对这些事实数据进行求和（summary）、求平均（average）、计数（count）、百分比（percent）的聚集计算。

四、事实表及维度表

1.事实表：事实数据表不应该包含描述性的信息，也不应该包含除数字度量字段及使事实与维度表中对应项的相关索引字段之外的任何数据。数据仓库中的表，其条目描述事实数据表中的数据。维度表包含创建维度所基于的数据。
2.维度表：一个事实数据表都要和一个或多个维度表相关联，用户在利用事实数据表创建多维数据集时，可以使用一个或多个维度表
3.生产中事实表与维度表的关系：
事实表可能有以下字段：
天、来源ID、浏览器ID、操作系统ID、PV、PageNumber等等；
其中，小时、来源ID、浏览器ID、操作系统ID 为维度；
PV、PageNumber为指标；
一般事实表中的维度都采用外键ID的形式，一来可以节省存储，也可以很好的适用于其他分析工具；
维度表包括：
时间维表：年、月、日，其中天为最细粒度，也为该表主键；
访问来源维表：来源ID、来源名称；
浏览器维表：浏览器ID、浏览器名称、etc.
操作系统维表：操作系统ID、操作系统名称、etc.
事实表中的维度，分别与这四张维度表，通过主外键的方式关联。
Kylin中的Cube亦是这种模型
4.定义数据模型参考文章

五、Build cube流程

STEP1. 根据Cube定义的事实表和维度，在Hive中生成一张中间表；
STEP2. 使用MapReduce，从事实表中抽取维度的Distinct值，并以字典树的方式压缩编码，同时也对所有维度表进行压缩编码，生成维度字典；
STEP3. 计算和统计所有的维度组合，并保存，其中，每一种维度组合，称为一个Cuboid；STEP4. 创建HBase Table；
STEP5. 利用step1中间表的数据，使用MapReduce，生成每一种维度组合（Cuboid）的数据；
STEP6. 将Cuboid数据转换成HFile，并导入到HBase Table中；
STEP7. 更新Cube信息，清理中间表。

我是丰儿你是沙

发布了118 篇原创文章 · 获赞 26 · 访问量 6万+

私信关注