大数据架构师基于Apache Kylin构建大数据分析平台

内容简介：

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop之上:的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据，最初由eBay公司开发#贞献至开源社区。它能在业秒内查询巨大的Hive表。本书分为21章，详细讲解APpache Kylin概念安装、配置、部署，让读者对Apache Kylin 构建大数据分析平台有一一个感性认识。同时，本书从应用角度，结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发们KAP大数据分析平台，对读者们极大的参考价值。本书适合大数据技术初学者、大数据分析人员、大数据架构师等，也适合用F高等院校和培训学校相关专业师生教学参考。

前言：

自2011年下半年开始，我就一直关注 Apache开源社区，侧重点放在大数据方面的成熟框架和产品。在这期间，陆续研究过Hadoop、Hive、 HBase、Mahout、 Kafka、 Flume、Storm,以及近两年很火的Spark和Flink等，和很多从事大数据的朋友-样，经历过无数的夜晚，对著电脑屏幕逐行研究这些源代码，同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区，贡献自己的力量，日复一日，乐此不疲。

第一部分：Apache Kylin基础部分

在这里插入图片描述

第二部分：Apache Kylin进阶部分

在这里插入图片描述

第三部分：Apache Kylin高级部分

在这里插入图片描述

第四部分：Apache Kylin的扩展部分

伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。

因为RDBMS很难处理单表10亿行数据，所以大数据技术应需而生。大数据技术从最初的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品，Apache Kylin就是其中的一一个优秀产品，目标是解决大数据范畴中的OLAP。

第二条主线是大数据思维。数据处理的最近几十年都被RDBMS的思想所束缚，小表、多表、表的连接、过分注重冗余性的坏处，等等，这些都限制了海量数据上的处理与分析。大数据技术出来之后，随之而来的大数据思路，给我们带来了海量数据处理的新思维。这个新思维的核心就是突破表的概念，而采用面向对象的数据模型在数据层上实现。Apache Kylin 的Cube模型就是在逐步体现大数据的思维。

最后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、数据服务、数据可视化和数据分析。这是一-环套一环的步骤，不能跳过。Apache Kylin作为数据分析环节的技术产品，一定要同数据管理的优秀产品相结合，才能充分发挥出分析的功效。蒋守壮是业界知名的Apache Kylin专家。《基于 Apache Kylin构建大数据分析平台》一书浅显易懂、实操性强，是目前Apache Kylin界不可多得的技术资料，值得细读和研究。
在这里插入图片描述
如果大家喜欢小编的文章可以多多关注哦

Java高级互联网架构师

发布了41 篇原创文章 · 获赞 1 · 访问量 2845

私信关注