数据仓库与数据挖掘实践期末复习总结

本篇内容为笔者数据仓库挖掘与实践的期末复习提纲范围,提纲标号为《数据仓库挖掘实践》的部分目录。

1.1.2 什么是数据仓库

定义

数据仓库是一个 面向主题的、稳定的、集成的、随时间变化的 数据的集合。

特征(4个)

  1. 面向主题
    主题是指用户使用数据仓库进行决策时所关心的重点领域。从数据组织的角度看,主题是一些数据的集合。
    面向主体组织的数据具有以下特点:
    A. 各个主题有完整、一致的内容一边在此基础上进行分析处理
    B. 主题之间有重叠的内容,反应主题之间的联系。重叠是逻辑上的,不是物理上的。
    C. 个主题的综合方式存在不同
    D. 主题域应该具有独立性和完备性
  2. 集成的
    数据仓库中存储的数据一般从企业原来已经建立的数据库系统中提取出来,但并不是原有数据的简单复制,而是经过了抽取、筛选、清理、转换、综合等工作。
  3. 非易失的
    数据仓库在某个时间段来看是不变的
  4. 时变的
    定期从操作型数据库系统之接收新的数据内容

1.2.1 数据仓库系统的组成

定义

数据仓库系统以数据仓库为核心,将各种应用系统集成在一起,为统一的历史数据分析提供平台。通过数据分析与报表模块和分析工具OLAP(联机分析处理)、决策分析、数据挖掘完成对信息的提取,满足决策需要。

组成

数据仓库系统通常指的是一个数据库环境
由以下3部分组成:

  1. 数据存储与管理层
    包含以下4个内容:
    A. 数据仓库:整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。
    B. 抽取工具:把数据从各种各样的环境中提取出来,进行必要的转化、整理,在存放到数据仓库内。
    C. 元数据:关于数据的数据,位于数据仓库的上层,是描述数据仓库内数据的结构、位置和建立方法的数据。
    D. 数据集市:面向某个主题而从数据仓库中划分出来的
  2. OLAP服务器层
    OLAP服务是对存储在数据仓库中的数据提供分析的一种软件。
  3. 前端分析工具层
    数据报表、数据分析和数据挖掘为用户产生的各种数据分析和汇总报表,以及数据挖掘结果。

1.2.2 ETL

ETL:抽取、转换、装载。简称为数据抽取,按照统一的规则集成并提高数据的价值,是完成数据从数据源向目标数据仓库转化的过程。

  1. 数据抽取
    将数据从各种原始的业务系统中抽取出来
  2. 数据转换
    按照原先设计好的规则将抽取的数据进行转换,是本来异构的数据格式统一起来
  3. 数据装载
    将转换完的数据按计划增量或全部导入到数据仓库中

1.4 数据仓库与操作型数据库的关系

操作型数据和分析型数据的区别

操作型数据 分析性数据
细节的 综合的
存取瞬间 历史数据
可更新 不可更新
事先可知操作需求 操作需求事先不可知
符合软件开发的生命周期 完全不同的生命周期
对性能要求较高 对性能要求较为宽松
某一个时刻操作一个单元 某一个时刻操作一个集合
事务驱动 分析驱动
细节的 一次操作的数据量较大

数据仓库与操作型数据库的对比

数据仓库 操作型数据库
面向主题 面向应用
容量巨大 容量相对较小
数据是综合的或提炼的 数据是详细的
保存历史的数据 保存当前的数据
通常数据是不可更新的 数据是可更新的
操作需求是临时决定的 操作需求是事先可知的
一个操作存取一个数据集合 一个操作存取一条记录
数据经常冗余 数据非冗余
操作相对不频繁 操作较频繁
所查询的是经过加工的数据 所查询的是原始数据
支持决策分析 支持事务处理
决策分析需要历史数据 事务处理需要当前数据
需要复杂计算 鲜有复杂计算
服务对象为企业高层决策人员 服务对象为企业业务处理方面的人员

2.3.1 多维数据模型及相关概念

  1. 粒度
    指数据仓库中的数据单元的详细程度和级别,数据越详细,粒度越小,级别越低。
  2. 维度
    简称“维”,是指人们观察事物的特定角度,概念上类似于关系表的属性
  3. 维属性和维成员
    一个维是通过一组属性来描述的,维的一个取值称为该维的一个成员
  4. 维层次
    同一维度可以存在细节程度不同的各个值,可以将粒度大的值映射到粒度小的值上,这样构成为层次
  5. 度量/事实
    度量是数据仓库中的信息单元,即多维空间中的一个单元,用以存放数据,也称为事实。

2.3.4 几种常见的基于关系数据库的多维数据模型

三种模式:星形模式,雪花模式,事实星座模式
星形模式是最基本的模式,一个星形模式有多个维表,但只能存在一个事实表。在星形模式基础上,构造维表的层结构(维表的规范化),得到雪花模式。如果打破星形模式只有一个事实表的限制,且这些事实表共享部分或全部已有维表信息,则称为事实星座模式

3.1 OLAP概述

3.2 OLAP的多维数据模型

3.3.1 数据立方体的有效计算

5.1 关联分析的概念

5.2 Aprior算法

7.1 分类过程

7.3 决策树分类算法

7.4 朴素贝叶斯分类算法

10.1 聚类概述

10.2 K-means算法

10.3.1 层级聚类算法概述

10.3.2 DIANA算法和AGNES算法

猜你喜欢

转载自blog.csdn.net/qq_43759081/article/details/122387259
今日推荐