大数据分析平台的演进之路

1、石器时代

大数据技术刚起步时平台架构很简单,数据流从日志通过RSYNC(linux系统下的数据镜像备份工具)流入到Hive,然后通过Hive SQL语句统计分析,结果导入到MySQL,最后形成报表展示。整个流程的驱动基于Shell脚本完成,报表系统和数据处理是利用Java实现。所有业务需求都是手工处理,所有报表都要写Java代码开发,这个给开发人员造成了很大的工作量,并且用户获取数据周期长,速度慢。

图片.png

2、铁器时代

整合了所有数据、所有计算资源和服务框架,重新构建形成一个大数据平台框架。底层是大数据平台所用的计算资源,离线计算主要是Hive、Spark,流式计算主要是Spark Streaming和Flink;OLAP主要是Impala和Kylin。数据方面Pingback是用户行为日志,机器日志就是程序产生的相关日志。线上数据库主要是MySQL、MongoDB等,大数据存储主要是HDFS、HBase、Kudu,Kudu主要是支持实时,分布式存储主要是HBase、HDFS。再往上层是开发平台层,主要负责工作流开发。流计算通过专门的开发工具进行管理,就是将任务开发进行重新构建。数据开发针对于系统数据进行血缘管理,提供数据集成管理,实现数据在不同集群、引擎间的同步。如机房中有很多机器分成3-4个集群,相互之间要进行数据同步,先前主要是手写程序完成,现在可以通过数据集成来进行跨DC的数据同步。数仓管理主要是埋点投递管理、指标维度管理、数仓模型管理。最上层就是直接面向用户的分析报表平台,自助分析工具有漏斗分析、画像分析、路径分析,还有自助查询工具、BI报表工具等。

图片.png

猜你喜欢

转载自blog.csdn.net/gracejpw/article/details/106965752