大数据架构师基于Apache Kylin构建大数据分析平台

内容简介:

ApacheKylin是一个 开源的分布式分析引擎,提供Hadoop之上:的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay公司开发#贞献至开源社区。它能在业秒内查询巨大的Hive表。本书分为21章,详细讲解APpache Kylin概念安装、配置、部署,让读者对Apache Kylin 构建大数据分析平台有一一个感性认识。同时,本书从应用角度,结合Dome和实例介绍了用于多维分析的Cube算法的创建、配置与优化。最后还介绍了Kyligence公司发们KAP大数据分析平台,对读者们极大的参考价值。本书适合大数据技术初学者、大数据分析人员、大数据架构师等,也适合用F高等院校和培训学校相关专业师生教学参考。

前言:

自2011年下半年开始,我就一直关注 Apache开源社区,侧重点放在大数据方面的成熟框架和产品。在这期间,陆续研究过Hadoop、Hive、 HBase、Mahout、 Kafka、 Flume、Storm,以及近两年很火的Spark和Flink等,和很多从事大数据的朋友-样,经历过无数的夜晚,对著电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区,贡献自己的力量,日复一日,乐此不疲。

第一部分:Apache Kylin基础部分在这里插入图片描述

在这里插入图片描述

第二部分:Apache Kylin进阶部分

在这里插入图片描述

第三部分:Apache Kylin高级部分

在这里插入图片描述
在这里插入图片描述

第四部分:Apache Kylin的扩展部分在这里插入图片描述

伴随着大数据发展的三条主线是大数据技术、大数据思维和大数据实践。

因为RDBMS很难处理单表10亿行数据,所以大数据技术应需而生。大数据技术从最初的解决海量数据的快速存储和读取,到今天的海量数据的OLAP,当中衍生出众多的技术产品,Apache Kylin就是其中的一一个优秀产 品,目标是解决大数据范畴中的OLAP。

第二条主线是大数据思维。数据处理的最近几十年都被RDBMS的思想所束缚,小表、多表、表的连接、过分注重冗余性的坏处,等等,这些都限制了海量数据上的处理与分析。大数据技术出来之后,随之而来的大数据思路,给我们带来了海量数据处理的新思维。这个新思维的核心就是突破表的概念,而采用面向对象的数据模型在数据层上实现。Apache Kylin 的Cube模型就是在逐步体现大数据的思维。

最后一条主线是大数据实践。大数据实践分为数据梳理、数据建模、数据采集、数据管控、数据服务、数据可视化和数据分析。这是一-环套一环的步骤, 不能跳过。Apache Kylin作为数据分析环节的技术产品,一定要同数据管理的优秀产品相结合,才能充分发挥出分析的功效。蒋守壮是业界知名的Apache Kylin专家。《基于 Apache Kylin构建大数据分析平台》一书浅显易懂、实操性强,是目前Apache Kylin界不可多得的技术资料,值得细读和研究。
在这里插入图片描述
如果大家喜欢小编的文章可以多多关注哦

发布了41 篇原创文章 · 获赞 1 · 访问量 2845

猜你喜欢

转载自blog.csdn.net/Ppikaqiu/article/details/104021891