DAMA-DMBOK2重点知识整理CDGA/CDGP——第6章 数据存储和操作

一、分值分布

        CDGA:2分(2单选)

        CDGP:0分

二、重点知识梳理

1、引言

语境关系图:

活动:

  • (1)数据库操作支持
    • 数据库操作支持主要关注与数据生命周期相关的活动,即从数据库环境的初始搭建,到数据的获取、备份再到处置数据。同时,它还包括需要确保数据库性能状态良好。监控和优化数据库性能对数据库支持是非常重要的。

  • (2)数据库技术支持
    • 数据库技术支持包括定义满足组织需要的数据库技术要求,定义数据库的技术架构,安装和管理数据库技术,以及解决与数据库相关的技术问题。

数据库管理员 (DBA) 在数据储和操作上述两个方面中都扮演着重要的角色。DBA 这个角色是数据专业中最常见,也是最被广泛接纳的角色。数据库管理实践可能也是数据管理实践领域最成熟的。在数据安全方面,DBA 同样发挥着主导作用 。

1.1 业务驱动因素

业务驱动因素:保障业务连续性

1.2 目标和原则

目标:

  1. 贯穿整个数据生命周期,管理数据的可用性。
  2. 确保数据资产的完整性。
  3. 管理数据交易的性能。

DBA 遵循的指导原则:

  1. 识别自动化的机会并采取行动。
  2. 构建时就考虑重用的思想。
  3. 理解并适当使用最佳实践。
  4. 支持数据库的标准需求。
  5. 为项目中的DBA角色设置期望值。 

1.3 基本概念

数据库术语:

  1. 数据库:数据库是存储数据的集合;一些大型数据库也称为“实例 (In-stance)”或“模式(Schema)”
  2. 实例:通过数据库软件执行对某一特定存储区域的控制访问。一个组织通常使用不同的存储区域同时执行多个实例。每个实例与所有其他实例相互独立。
  3. 模式:是数据库或实例中的数据库对象的一个子集 (Subset)。模式被用来将数据库对象组织成多个可管理的集合。通常,一个模式拥有一个用户以及访问该模式内容的特定访问列表。模式的常见用法是将包含敏感数据的对象与普通用户群隔离,或者是在关系数据库中将只读视图与基础表隔离。模式还可以表示具有相似性的数据库结构的集合。
  4. 节点:一台单独的计算机作为分布式数据库处理数据或者存储数据的一个部分。
  5. 数据库抽象:通用应用接口 (API) 通常用来调用数据库函数。数据库抽象的优势是可移植性很强,缺点是对于某些针对特定数据库的函数,很难跨库使用

数据生命周期管理:数据生命周期管理包括为数据的获取、迁移、保留、过期和处置进行的实施策略和过程。稳妥的做法是准备好检查表,确保所有的任务都能高标准、高质量的完成。DBA 应该有一个回退计划,在变更出现异常的情况下可以撤销变更。

管理员:

DBA:DBA 为开发环境、测试环境、QA 环境和其他特殊数据库环境提供支持。不是独立完成数据存储 和操作活动的唯一角色 。

  • 类型:
    • 生产DBA:生产 DBA 主要负责数据操作管理
      • 工作:
        • 1)通过性能调优、监控、错误报告等活动,确保数据库的性能及可靠性。
        • 2)通过建立备份与恢复机制,确保在任何意外情况下数据能够被恢复。
        • 3)通过建立集群和容错机制,确保数据连续可用。
        • 4)执行其他数据库维护活动,如建立数据归档机制。
      • 成果:
        • 1)生产数据库环境,确保性能,配置适当的安全性、可靠性和可用性级别。数据库系统管理员为 DBMS 的环境负责。
        • 2)控制数据库实施变更的机制和流程。
        • 3)建立确保数据完整、可用和恢复的机制。
        • 4)建立错误检测和报告的机制。
        • 5)提供与服务水平协议(SLA)相匹配的数据库服务。
        • 6)建立性能监控的机制和过程。
    • 应用程序DBA:负责所有环境(开发、测试、QA 及生产)中的一套或多套数据库,而不是指定负责管理某个环境的数据库系统
    • 过程和开发DBA:负责审查和管理数据库的过程对象。
    • 网络存储管理员NSA:关注支持数据存储阵列的软硬件

应用程序DBA和过程和开发DBA通常统称为开发DBA

数据架构类型:

  • 集中式数据库
  • 分布式数据库:
    • 1)联邦的(自治的)
      • 联邦数据库对于类似企业信息集成、数据可视化、模式匹配和主数据管理这样异构和分布式的集成项目非常合适。分松耦合、紧耦合
    • 2)区块链数据库:区块链数据库是一种联邦数据库(自治的),它有单条记录和块两种结构类型
    • 3)可视化/云计算平台
      • 云上实施数据库方法:
        • 虚拟机镜像。
        • 数据库即服务 DaaS。
        • 管理托管云上的数据库

数据处理类型:

  • ACID:强调一致性C
    • 1)原子性(Atomicity)。
    • 2)一致性(Consistency)。
    • 3)隔离性(Isolation)。
    • 4)持久性(Durability)
  • BASE:强调可用性A
    • 1)基本可用(Basically Available)。
    • 2)软状态(Soft State)。
    • 3)最终一致性(Eventual Consistency)
  • CAP:以下3选2
    • 1)一致性(Consistency)。
    • 2)可用性(Availability)。
    • 3)分区容错(Partition Tolerance)。

对于CAP,Lambda 架构使用,当可用性和分区容错更重要时采用 Speed 路径,当一致性和可用性 更重要时采用 Batch 路径

数据存储介质:

  1. 磁盘和存储区域网络 SAN。
  2. 内存。
  3. 列压缩方案。
  4. 闪存

数据库环境:

  • 生产环境。
  • 非生产环境
    • 开发环境。
    • 测试环境。
      • 用途:
        • 1)质量保证测试(QA)。
        • 2)集成测试。
        • 3)用户验收测试(UAT)。
        • 4)性能测试。
    • 数据沙盒或实验环境。

数据库组织模型:

  • 1 层次型数据库:XML使用的层次模型
  • 2 关系型数据库:RDBMS
    • 多维数据库:最常用于数据仓库(DW) 和商务智能 (BI)
    • 时态数据库。
      • 特征
        • 1)有效时间
        • 2)事务时间
  • 3 非关系型数据库:NoSQL
    • 列式数据库。
    • 空间数据库。
    • 对象/多媒体数据库。
    • 平面文件数据库。
    • 键值对。
    • 三元组存储。

专用数据库:

  1. 计算机辅助设计和制造(CAD)
  2. 地理信息系统(GIS)
  3. 购物车功能

常见数据库过程:

  • 1 数据归档。
    • 稳妥的方法:
      • 1)创建一个辅助存储区域,优先建在辅助数据库服务器上。
      • 2)将当前的数据库表分区成可以归档的单元
      • 3)将不经常使用的数据复制到单独的数据库。
      • 4)创建磁带或磁盘备份。
      • 5)创建数据库任务,定期清理不再使用的数据
  • 2 容量和增长预测。
  • 3 变动数据捕获。
    • 检测和收集更改方法:
      • 1)数据版本控制:评估标识已改动过行的列 (例如,有上次更新时间戳的列、有版本号的列、有状态标识的列)
      • 2)通过读取日志 (Logs)。日志里记录了变化,并能将变化复制到辅助系统中。
  • 4 数据清除。
  • 5 数据复制
    • 两种模式
      • 1)主动复制。
      • 2)被动复制
    • 两个维度的扩展方式:
      • 水平数据扩展。
      • 垂直数据扩展
    • 复制方式:
      • 镜像。
      • 日志传送。
  • 6 韧性与恢复
    • 立即恢复。
    • 关键恢复。
    • 非关键恢复。
  • 7 数据保留。
  • 8 数据分片。

2、活动

数据存储和操作包括数据库技术支持和数据库操作支持两个主要活动。数据库技术支持侧重选择和维护用于存储和管理数据的软件,而数据库操作支持侧重软件所管理的数据和进程

2.1 管理数据库技术

理解数据库的技术特征:数据专业人员必须先理解候选数据库技术的特点,然后才能确定将哪种技术推荐为解决方案。

评估数据库技术

  • 技术因素:
    • 1)产品架构和复杂性
    • 2)容量和速度限制,包括数据流传送速率。
    • 3)应用类别,如事务处理、商务智能、个人资料。
    • 4)特殊功能,如时间计算支持。
    • 5)硬件平台及操作系统支持
    • 6)软件支持工具的可用性。
    • 7)性能评测,包括实时统计信息。
    • 8)可扩展性
    • 9)软件、内存和存储需求
    • 10)韧性,包括错误处理和错误报告
  • 其他因素:
    • 1)组织对技术风险的偏好。
    • 2)提供训练有素的技术专业人员。
    • 3)拥有成本,如软件许可费、维护费和计算资源成本
    • 4)供应商声誉
    • 5)供应商支持策略和版本计划。
    • 6)其客案例。

管理和监控数据库技术

2.2 管理数据库操作

DBA 和网络存储管理员提供的数据库支持是数据管理的核心。
DBA 通过分配存储结构、维护物理数据库 (包括物理数据模型和数据的物理分布,如分配给特定文件或磁盘区域) 以及在服务器上建立数据库环境来管理各种数据存储应用程序。

理解需求

  • (1)定义存储需求:永久性还是临时性;初始容量;空间增长预测;数据保留合规性;
  • (2)识别使用模式。
    • 常见的使用模式
      • 1)基于事务型。
      • 2)基于大数据集的读或写型
      • 3)基于时间型(月末压力大、周末压力轻等)。
      • 4)基于位置型(人口集中的地区有更多交易等)
      • 5)基于优先级型(某些部门或者某些批处理相对有更大权限的优先级)。
  • (3)定义访问需求。 

规划业务连续性

  • 数据丢失或损坏的场景:
    • 1)物理数据库服务器失效。
    • 2)一块或多块磁盘存储设备失效
    • 3)数据库失效,包括主要的数据库、临时的存储数据库和事务日志等
    • 4)数据库索引或数据页损坏。
    • 5)数据库和日志段的文件系统失效。
    • 6)数据库或事务日志的备份文件失效。
  • 规划连续性步骤:
    • 1)备份数据
    • 2)恢复数据

创建数据库实例

  • DBA负责创建数据库实例。活动包括:
    • 1)安装和更新 DBMS 软件。
    • 2)维护多种环境的安装,包括不同的DBMS版本。
    • 3)安装和管理相关的数据技术。
      • (1)物理存储环境管理
        • 要求:要遵循传统的软件配置管理 (SCM)过程或信息技术基础设施库 (ITIL)的方法,以记录对数据库配置、结构、约束、权限、闽值等的修改
        • SCM步骤:
          • 1)配置识别
          • 2)配置变更控制
          • 3)配置状态报告
          • 4)配置审计:类型包括物理配置审计、功能配置审计
      • (2)管理数据访问控制
        • 监督内容:
          • 1)受控环境。
          • 2)物理安全。
          • 3)监控。
          • 4)控制。
      • (3)创建存储容器。
      • (4)应用物理数据模型。
      • (5)加载数据。
      • (6)管理数据复制。
        • 影响复制过程的决策的建议:
          • 1)主动或被动复制。
          • 2)基于分布数据系统的分布式并发控制。
          • 3)在数据更改控制过程中,通过时间戳或版本号来识别数据更新的适当方法。

管理数据库性能

  • 管理数据库性能的步骤:
    • 1)设置和优化操作系统及应用程序参数。
    • 2)管理数据库连接。
    • 3)与系统开发人员和网络管理员合并,优化操作系统、网络和事务处理中间件。
    • 4)提供合适的存储。
    • 5)提供容量增长预测。
    • 6)与系统管理员一起,提供操作工作负载和基准,以支持SLA管理、收费计划、服务器容量及规划的生命周期轮换
      • (1)设置数据库性能服务水平。
      • (2)管理数据库可用性。
        • 可用性的因素
          • 1 可管理性。
          • 2 可恢复性。
          • 3 可靠性。
          • 4 可维护性
        • 影响数据可用性的因素:
          • 1 计划性停机。
          • 2 非计划停机。
          • 3 应用问题。
          • 4 数据问题。
          • 5 人为错误。
        • 确保可用性的工具和方法:
          • 1 运行数据库备份工具。
          • 2 运行数据库重组工具。
          • 3 运统计信息搜集工具。
          • 4 运行数据完整性检查工具
          • 5 自动执行上述这些工具。
          • 6 利用表空间聚类和分区
          • 7 跨库进行数据复制保证高可用性
      • (3)管理数据库运行。
      • (4)维护数据库性能服务水平。
        • 事务性能与批处理性能
        • 问题修复
          • 数据库性能低下的常见原因:
            • 1 内存分配和争用。
            • 2 锁与阻塞。
            • 3 不准确的数据库统计信息。
            • 4 不良代码。
            • 5 低效而复杂的表连接。
            • 6 不当的索引。
            • 7 应用程序活动。
            • 8 过载的服务器。
            • 9 数据库的易变性。
            • 10 失控的查询语句。
      • (5) 维护备用环境。
        • 备用环境类型:
          • 开发环境
          • 测试环境
          • 数据沙箱
          • 备用的生产环境

管理数据迁移

  1. 将过度使用的存储设备上的数据转移到一个单独的环境中
  2. 根据需要将数据移动到速度更快的存储设备上。
  3. 实施数据生命周期管理策略。
  4. 将数据从旧的存储设备(无论是报废还是停止租赁) 迁移到线下或云存储上。

3、工具

工具

  1. 数据建模工具
  2. 数据库监控工具
  3. 数据库管理工具
  4. 开发支持工具

4、方法

方法:(以语境关系图为准)

  1. 变更实施路径。
  2. 物理命名标准。
  3. 数据生命周期管理。
  4. 所有变更操作脚本化

5、实施指南

5.1 就绪评估/风险评估

中心思想

  1. 数据丢失
  2. 技术准备

6、数据存储和操作治理

6.1 度量指标

度量指标

  • 数据存储度量指标
    • 1) 数据库类型的数量。
    • 2)汇总交易统计。
    • 3)容量指标。
    • 4)已使用存储的数量。
    • 5)存储容器的数量。
    • 6)数据对象中已提交和未提交块或页的数量。
    • 7)数据队列。
    • 8)存储服务使用情况。
    • 9)对存储服务提出的请求数量
    • 10) 对使用服务的应用程序性能的改进。
  • 性能度量指标
    • 1)事务频率和数量
    • 2)查询性能
    • 3)API服务性能
  • 操作度量指标
    • 1)有关数据检索时间的汇总统计。
    • 2)备份的大小
    • 3)数据质量评估
    • 4)可用性
  • 服务度量指标
    • 1)按类型的问题提交、解决和升级数量。
    • 2)问解决时间

猜你喜欢

转载自blog.csdn.net/DreamEhome/article/details/132962841