构建高性能数据交换系统:大数据分析中的关键技术

作者:禅与计算机程序设计艺术

大数据和数据仓库技术

随着互联网、电子商务、社交网络等应用的蓬勃发展,越来越多的数据正在产生出来。这些数据不仅会膨胀到几十兆、甚至上百兆,而且数据量的呈指数增长趋势越来越明显,如今每天产生海量的原始数据,数据存储成本也在逐渐下降。因此,如何快速有效地处理海量数据的需求日益成为越来越重要的课题。

传统的数据仓库技术可以满足对历史数据的分析查询需求,但对于实时数据的分析查询需求,传统的数据仓库技术仍然无法很好地满足。基于实时性的需求已经成为企业对数据仓库的重要要求。在大数据时代,“实时”意味着秒级甚至毫秒级的响应速度,而传统的数据仓库技术无法满足这种需求。而新的一代数据分析技术正朝着满足实时分析需求的方向迈进。

数据集市

数据集市的出现就是为了满足实时数据分析查询的需求。目前,数据集市主要包括离线数据仓库和分布式实时数据流平台两大类。其中,离线数据仓库的实现依赖于周期性的数据导入、ETL处理、数据清洗、计算加工等过程,需要较大的硬件资源和维护成本;分布式实时数据流平台则采用流处理的方式,通过实时计算和流式传输数据,实现数据快速入库、高效查询和分析。

Hadoop生态圈

Hadoop(

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131757689