DW2.0与第一代数据仓库的区别

    DW2.0新一代数据仓库环境的架构。DW2.0和第一代数据仓库有很大的差别。四个最大的差别如下:
     *随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。
     *数据仓库总包含非结构化数据。
     *DW2.0环境包含元数据。
     *DW2.0的技术基础能够随着时间而变化。
     DW2.0有四个主要的生命周期区:
    *交互区,数据仓库以更新模式在交易响应时间水平下完成构建。
     *整合区,数据在这里经过整合并完成分析处理。
     *近线去,作为整合区数据的一个缓存区域。
     *归档区,存放访问概率显著下降但仍有可能被访问的数据。
     DW2.0既包含结构化数据,也包含非结构化数据。非结构化文本进入数据仓库之前必须首先要经过一个整合过程。整合过程对于为文本分析提供非结构化文本非常必要。如果非结构化文本未经整合,就无法有效地进行文本分析。
     为非结构化数据进入DW2.0环境做准备的主要任务之一就是清楚“废话”。另一项必做的工作就是术语规范化。文本必须同时拥有特殊的和一般的两种参考,以便成功地进行文本分析。
     元数据是DW2.0的一个重要组成部分,它有以下几个级别:
     *企业级
     *本地级
     *业务级
     *技术级
     要想获得成功,DW2.0环境必须建立在可随时间变化的技术基础之上。

猜你喜欢

转载自honeybinshun.iteye.com/blog/1698145