DAMA-DMBOK2重点知识整理CDGA/CDGP——第8章 数据集成和互操作

目录

一、分值分布

二、重点知识梳理

1、引言

1.1 业务驱动因素

1.2 目标和原则

1.3 基本概念

2、活动

2.1 规划和分析

2.2 设计数据集成方案

2.3 开发数据集成解决方案

扫描二维码关注公众号,回复: 16782822 查看本文章

2.4 实施和监测

3、工具

4、方法

5、实施指南

5.1 就绪评估/风险评估

6、数据集成和互操作治理


一、分值分布

        CDGA:2分(2单选)

        CDGP:0分

二、重点知识梳理

1、引言

语境关系图:

数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移 动和整合的相关过程。

数据集成和互操作提供组织所依赖的基本数据管理职能:

  • 1)数据迁移和转换。
  • 2)数据整合到数据中心或数据集市。
  • 3)将供应商的软件包集成到组织的应用系统框架中。
  • 4)在不同应用程序或 组织之间数据共享。
  • 5)跨数据存储库和数据中心分发数据。
  • 6)数据归档。
  • 7)数据接口管理。
  • 8)获取和接收外部数据。
  • 9)结构化和非结构化数据集成。
  • 10)提供运营智能化和管理决策支持。

数据集成和互操作依赖于数据管理的其他领域

  • 1)数据治理。用于治理转换规则和消息结构。
  • 2)数据架构。用于解决方案设计。
  • 3)数据安全。无论数据是持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护。
  • 4)元数据。用于知晓数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘。
  • 5)数据存储和操作。管理解决方案的物理实例化。
  • 6)数据建模和设计。用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构。

1.1 业务驱动因素

数据集成和互操作是新兴大数据管理领域的核心,主要目的是为了对数据移动是进行有效管理。 主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程。

业务驱动因素: 

  • (1)管理数据集成的复杂性以及相关成本是建立数据集成架构的原因
  • (2)维护管理成本
  • (3)支持组织遵守数据处理标准和规则的能力

1.2 目标和原则

目标:

  • 1)按照所需格式,及时地提供安全、合规的数据。
  • 2)构建开发共享模型和接口,降低解决方的成本和复杂度。
  • 3)识别有意义的事件,自动触发预警和动作。
  • 4)支撑商务智能、数据分析、主数据管理,并致力于提高运效率。

原则

  • 1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
  • 2)平衡本地数据需求与企业数据需求,包括支撑与维护
  • 3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改包括持久性和虚拟性。

1.3 基本概念

抽取、转换、加载(ETL)

数据集成和互操作的核心是抽取、转换和加载 (ETL) 这一基本过程

常用于数据仓库

如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为 ELT——抽取、加载、转换

  • 抽取:抽取过程包括选择所需的数据并从其源数据中提取。
  • 转换:
    • 转换的例子
      • 1)格式变化。技术上的格式转换,如从 EBCDIC 到ASCII的格式转换
      • 2)结构变化。数据结构的变化,如从非规范化到规范化的记录。
      • 3)语义转换。数据值转换时保持语义的一致化表达,如源性别代码可以包括0、1、2和3,而目标性别代码可以表示为UNKNOWN、FEMALE、MALE 或NOT PROVIDED。
      • 4))消除重复。如规则需要唯一的键值或记录,以确保包括扫描目标、检测和删除重复行的方法。
      • 5)重新排序。改变数据元素或记录的顺序以适应已定义的模式
  • 加载:加载过程是在目标系统中物理存储或呈现转换结果

时延:时延 (Latency) 是指从源系统生成数据到目标系统可用该数据的时间差

  • 批处理:
    • 延迟:很高
  • 变更数据捕获
    • 定义:变更数据捕获是一种通过增加过滤来减少传送带宽需求的方法,只包含在特定时间范围内更改过的数据
    • 技术:
      • 1)源系统填人特定的数据元素
      • 2)源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择。
      • 3)源系统复制已经变化的数据。
  • 准实时和事件驱动
    • 延迟:较高
  • 异步
  • 实时同步
    • 延迟:非常低
  • 低延迟或流处理

复制:一些应用程序在多个物理位置上有维护数据集的精确副本。复制技术将分析和查询对主事务操作环境性能的影响降至最低

归档:不经常使用的数据可以移动到对组织成本较低的备用数据结构或存储解决方案中

交互模型:交互模型描述了在系统之间建立连接以传送数据的方式。

  • 点到点
    • 存在的问题:
      • 1)影响处理
      • 2)管理接口
      • 3)潜在的不一致
  • 中心辐射型:它将共享数据 (物理或虚)整合到应用程序可以使用的一个中央数据中心。如ESB(企业服务总线)
  • 发布与订阅

数据集成和互操作架构概念:

  • 1)应用耦合:耦合描述了两个系统交织的程度。
  • 2)编排和流程控制
  • 3)企业应用集成
    • 企业应用集成模型(Enterprise Application Integration,EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的 API 访问。企业应用集成是基于面向对象的概念,它强调重用和替换任何模块而不影响任何其他模块的能力
  • 4)企业服务总线
    • 企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息。应用程序可以通过ESB现有的功能封装发送和接收的消息或文件。作为一个松散耦合的例子,ESB充当两个应用程序之间的服务角色。
  • 5)面向服务的架构
    • 面向服务的架构SOA通过在应用程序之间定义好的服务调用,可以提供推送数据或更新数据。SOA的目标是在独立的软件模块之间定义良好的交互。数据服务可以包括数据的添加、删除、更新和检索,这些服务被指定在可用服务的目录中。SOA可以通过Web服务、消息传送、RESTful API等多种技术来实现。
  • 6)复杂事件处理
  • 7)数据联邦和虚拟化
  • 8)数据即服务
  • 9)云化集成

2、活动

数据集成和互操作涉及在什么时间、什么地点、以什么方式能获得数据

2.1 规划和分析

  • (1)定义数据集成和生命周期需求。
    • 理解组织的业务目标及为实现这些目 标而需要的数据和建议的技术方案。由业务分析师、数据管理专员和具有各种职能架构师定义。过程创建并发现元数据,有利于管理数据成风险和成本。
  • (2)执行数据发现。
    • 为数据集成工作确定潜在的数据来源,还针对数据质量进行高级别的评估,以确定数据是否集成。数据探索会生成完善组织的数据目录。需要做好集成内外部数据的规划。
  • (3)记录数据血缘。
    • 揭示数据在组织中如何流动。血缘分析可能会识别使用的系统所需的更新,分析过程还可以提供改进现有数据流的机会。
  • (4)剖析数据:理解数据内容和结构是实现数据集成功的关键
    • 基本剖析包括:
      • 1)数据结构中定义的数据格式和从实际数据中推断出来的格式
      • 2)数据的数量,包括 null 值、空或默认数据的级别
      • 3)数据值以及它们与定义的有效值集合的紧密联系
      • 4)数据集内部的模式和关系,如相关字段和基数规则
      • 5)与其他数的关系
  • (5)收集业务规则:收集业务规则也称为规则获取、
    • 收集业务规则也称为规则获取、业务规则挖掘。业务 规则是需求的一个关键子集,是定义或约束业务处理方面的语句。业务规则旨在维护业务结构、 控制或影响业务的行为
    • 实现数据集成和互操作需要业务规则的支撑内容:
      • 1)评估潜在的源数据集和目标数据集的数据
      • 2)管理组织中的数据流。
      • 3)监控组织中的操作数据
      • 4)指示何时自动触发事件和警报
    • 业务规则分为四类:
      • 1)业务术语定义
      • 2)相互关联的术语的事实
      • 3)约束
      • 4)行为断言以及派生

2.2 设计数据集成方案

  • (1)设计解决方案组件。
    • 在企业和单个解决方案两个层面统筹考虑。尽 可能重现有方案和组件。解决方案体系结构表示将要使用的技术,它将包括所涉及数据结构的清 单(持久和可传递、现有和必需)、数据流的编排和频率指示、法规、安全问题和补救措施以及 有关备份和恢复、可用性和数据存档和保留
    • 步骤:
      • 1)选择交互模型
      • 2)设计数据服务或交换模式
  • (2)建模数据中心、接口、消息、数据服务。
  • (3)映射数据到目标。
    • 映射规范:
      • 1)指明源数据和目标数据的技术格式
      • 2)指定源数据和目标数据之间所有中间暂存点所需的转换
      • 3)描述最终或中间目标数据存储区中每个属性的填充方式。
      • 4)描述是否需要对数据值进行转换,如通过在表示适当目标值的表中查找源值
      • 5)描述需要进行哪些计算。
  • (4)设计数据编排。
    • 从开始到结束的数据流模式,包括完成转换和/或事务所需的所有中间步骤。设定数据移动和转换的频率。

2.3 开发数据集成解决方案

  • (1)开发数据服务。
    • 使用一致的工具或标准的供应商套件
  • (2)开发数据流编排。
    • 开发实时数据成流涉及监控事件。可能包括开发数据 存储之间的映射或协调点,涉及监控事件。
  • (3)制定数据迁移方法
    • 不是一次性的过程,常被低估或缺乏充分的设计
  • (4)制定发布方式
    • 最佳实践是为组织中的各种数据类型确定一个通用的消 息定义(规范格式),并让具有适当访问权限的数据使用者(应用程序或个人)订阅接收有关数 据更改的通知。
  • (5)开发复杂事件处理流
    • 需要做的工作:
      • 1)准备有关预测模型的个人、组织、产品或市场和迁移前的历史数据。
      • 2)处理实时数据流,充分填充预测模型、识别有意义的事件(机会或威胁)。
      • 3)根据预测执行触发的动作。
  • (6)维护DII元数据。
    • 元数据应经过业务和技术利益相关方的审核和批准过程。

2.4 实施和监测

  • 建立度量指标和反馈问题的机制。必须进行苛刻的监视和服务

3、工具

详见语境关系图

4、方法

详见语境关系图

5、实施指南

5.1 就绪评估/风险评估

必须基于深入的业务来开发数据集成解决方案。方案要保持在关注业务和需求上。要有足够权威 级别的团队来企业数据集成的实施,通过正面激励措施来鼓励,通过负面的管控措施来否决。

6、数据集成和互操作治理

数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力。这些决策必 须由商业因素驱动。

度量指标

  • 1)数据可用性。请求数据的可获得性。
  • 2)数据量和速度。
    • 传送和转换的数据量
    • 分析数据量
    • 传送速度
    • 数据更新与可用性之间的时延
    • 事件与触发动作之间的时延
    • 新数据源的可用时间
  • 3)解决方案成本和复杂度。
    • 解决方案开发和管理成本
    • 获取新数据的便利性
    • 解决方案和运营的复杂度
    • 使用数据集成解决方案的系统数量

猜你喜欢

转载自blog.csdn.net/DreamEhome/article/details/132978275