数据仓库设计与ETL技术

作者:禅与计算机程序设计艺术

1.简介

企业数据是指企业管理中最重要的资产之一,其重要性不言而喻。企业的数据是企业内部各种信息系统、业务决策系统、生产制造流程及管理决策制定的依据。数据的获取、存储、处理和分析等过程即是企业数据价值的体现。

企业数据仓库(Data Warehouse)是一种存放企业所有原始数据、汇总后加工后的中间数据集和分析结果的一体化的大型数据库,其用途主要是支持企业数据分析、决策、运营。数据仓库中的数据需要经过清洗、转换、规范化、建模、统计等处理后才能最终呈现在决策者面前。因此,企业数据仓库的设计和构建将成为数据分析、决策、管理的基石。

随着互联网信息革命的到来,越来越多的人把目光投向了云计算、大数据、区块链、物联网等新技术的应用。在云端存储海量数据、实时处理高并发数据流、搭建起分布式数据存储体系。这些新兴技术也带来了数据源源不断的进入。如何对接不同数据源,根据业务需求进行合理的抽取、转换、加载、清洗、规范化、建模和统计是企业数据仓库的重要工作。企业数据仓库的设计和实现涉及到ETL(Extract-Transform-Load)技术。

本书所涉及到的知识点包括:数据仓库基础理论、ETL工具、抽取、转换、加载、调度、质量控制、可靠性保证、数据质量建模、安全性保障、异地备份、数据分析能力建设等。全书共分八章,分别介绍数据仓库概念、应用背景、ETL技术原理、抽取系统、转换系统、加载系统、调度系统、质量控制系统、可靠性保证系统、数据质量建模、安全性保障系统和异地备份系统。作者通过作者自己的研究和工作,以及在实际业务实践中积累的经验教训,为读者提供一个比较全面的、系统化的数据仓库知识体系。

2.相关背景

数据采集方式

批处理方式

数据采集的方式以批处理为主,每天、每周甚至每月一次性采集完整的数据。此种

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132914013