Компиляция ключевых знаний DAMA-DMBOK2 CDGA/CDGP — Глава 8. Интеграция и взаимодействие данных

Оглавление

1. Распределение баллов

2. Краткое изложение ключевых знаний

1. Введение

1.1 Бизнес-факторы

1.2 Цели и принципы

1.3 Основные понятия

2. Мероприятия

2.1 Планирование и анализ

2.2 Решение для интеграции проектных данных

2.3 Разработка решений по интеграции данных

2.4 Реализация и мониторинг

3. Инструменты

4. Метод

5. Руководство по внедрению

5.1 Оценка готовности/оценка рисков

6. Интеграция данных и управление функциональной совместимостью


1. Распределение баллов

        CDGA: 2 балла (2 отдельных варианта выбора)

        CDGP: 0 очков

2. Краткое изложение ключевых знаний

1. Введение

Контекстная диаграмма:

Интеграция и взаимодействие данных (DII) описывает процессы, связанные с перемещением и интеграцией данных внутри и между разрозненными хранилищами данных, приложениями и организациями.

Интеграция и совместимость данных обеспечивают основные функции управления данными, на которые полагаются организации:

  • 1) Миграция и преобразование данных.
  • 2) Интеграция данных в центры обработки данных или витрины данных.
  • 3) Интегрируйте пакет программного обеспечения поставщика в структуру прикладной системы организации.
  • 4) Обмен данными между различными приложениями или организациями.
  • 5) Распределите данные по хранилищам данных и центрам обработки данных.
  • 6) Архивирование данных.
  • 7) Управление интерфейсом данных.
  • 8) Получать и получать внешние данные.
  • 9) Интеграция структурированных и неструктурированных данных.
  • 10) Обеспечивать оперативную разведку и поддержку управленческих решений.

Интеграция и функциональная совместимость данных зависят от других областей управления данными :

  • 1) Управление данными. Используется для управления правилами преобразования и структурами сообщений.
  • 2) Архитектура данных. для проектирования решения.
  • 3) Безопасность данных. Независимо от того, сохраняются ли данные, виртуализируются или передаются между приложениями и организациями, убедитесь, что решение надлежащим образом защищает безопасность данных.
  • 4) Метаданные. Перечень технологий, используемых для понимания данных (постоянных, виртуальных и динамических), бизнес-значения данных, бизнес-правил преобразования данных, истории операций с данными и происхождения данных.
  • 5) Хранение и эксплуатация данных. Управляйте физическим воплощением решения.
  • 6) Моделирование и проектирование данных. Используется для проектирования структур данных, включая физические структуры персистентности в базах данных, виртуальные структуры данных и структуры сообщений, которые передаются между приложениями и организациями.

1.1 Бизнес-факторы

Интеграция и функциональная совместимость данных лежат в основе развивающейся области управления большими данными, основной целью которой является эффективное управление перемещением данных. Основная ответственность заключается в управлении двусторонним потоком данных между репозиториями внутри организации и другими организациями.

Бизнес-драйверы

  • (1) Управление сложностью интеграции данных и связанными с ней затратами являются причинами создания архитектуры интеграции данных.
  • (2) Затраты на техническое обслуживание и управление
  • (3) Поддержка способности организации соблюдать стандарты и правила обработки данных.

1.2 Цели и принципы

Цель:

  • 1) Своевременно предоставлять безопасные и соответствующие требованиям данные в необходимом формате.
  • 2) Создавайте и разрабатывайте общие модели и интерфейсы для снижения стоимости и сложности решений.
  • 3) Выявляйте значимые события и автоматически запускайте предупреждения и действия.
  • 4) Поддержка бизнес-аналитики, анализа данных и управления основными данными, а также стремление к повышению операционной эффективности.

Принципы :

  • 1) Принять корпоративную перспективу для обеспечения будущей масштабируемости, достигаемой за счет итеративной и поэтапной доставки.
  • 2) Сбалансируйте потребности в локальных данных с потребностями в корпоративных данных, включая поддержку и обслуживание.
  • 3) Обеспечить надежность проектов и мероприятий по интеграции и функциональной совместимости данных. Бизнес-эксперты должны участвовать в разработке и изменении правил преобразования данных, включая сохранение и виртуализацию.

1.3 Основные понятия

Извлечение, преобразование, загрузка (ETL)

В основе интеграции и совместимости данных лежит базовый процесс извлечения, преобразования и загрузки (ETL).

Обычно используется в хранилищах данных

Если целевая система имеет более сильные возможности преобразования, чем исходная система или промежуточная прикладная система, порядок обработки данных можно переключить на ELT — извлечение, загрузка, преобразование.

  • Извлечение. Процесс извлечения включает в себя выбор необходимых данных и их извлечение из исходных данных.
  • Преобразование:
    • Пример конвертации
      • 1) Изменения формата. Преобразование технического формата, например преобразование формата EBCDIC в ASCII.
      • 2) Структурные изменения. Изменения в структуре данных, например, от денормализованных записей к нормализованным.
      • 3) Семантическое преобразование. Сохраняйте единообразное выражение семантики при преобразовании значений данных. Например, исходный гендерный код может включать 0, 1, 2 и 3, а целевой гендерный код может быть выражен как НЕИЗВЕСТНО, ЖЕНСКИЙ, МУЖЧИНА или НЕ ПРЕДОСТАВЛЕНО.
      • 4)) Устранить дублирование. Если правило требует уникального ключа или записи, убедитесь, что вы включили способ сканирования цели, а также обнаружения и удаления повторяющихся строк.
      • 5) Переупорядочить. Измените порядок элементов данных или записей в соответствии с определенной схемой.
  • Загрузка: Процесс загрузки представляет собой физическое хранение или представление результатов преобразования в целевой системе.

Задержка : Задержка относится к разнице во времени между исходной системой, генерирующей данные, и целевой системой, предоставляющей данные.

  • Пакетная обработка:
    • Задержка: Очень высокая
  • Изменить сбор данных :
    • Определение: Сбор измененных данных — это метод снижения требований к пропускной способности доставки за счет добавления фильтрации, позволяющей включать только данные, которые изменились в течение определенного периода времени.
    • технологии:
      • 1) Исходная система заполняет определенные элементы данных.
      • 2) Процесс исходной системы добавляется к простому списку объектов и идентификаторов при изменении данных, который затем используется для управления выбором извлекаемых данных.
      • 3) Исходная система копирует измененные данные.
  • Практически в режиме реального времени и на основе событий
    • Задержка: выше
  • асинхронный
  • Синхронизация в реальном времени
    • Задержка: очень низкая
  • Низкая задержка или потоковая обработка

Репликация . Некоторые приложения поддерживают точные копии наборов данных в нескольких физических местах. Технология репликации минимизирует влияние аналитики и запросов на производительность основной операционной среды транзакций.

Архивирование : данные, которые используются нечасто, можно переместить в альтернативную структуру данных или решение для хранения, которое менее затратно для организации.

Модель взаимодействия . Модель взаимодействия описывает способ установления соединений между системами для передачи данных.

  • точка-точка
    • Проблемы:
      • 1) Ударная обработка
      • 2) Интерфейс управления
      • 3) Возможные несоответствия
  • Центр обработки данных: он объединяет общие данные (физические или виртуальные) в центральный центр обработки данных, который может использоваться приложениями. Например, ESB (корпоративная сервисная шина).
  • публиковать и подписываться

Концепции архитектуры интеграции и взаимодействия данных:

  • 1) Связь приложений. Связь описывает степень переплетения двух систем.
  • 2) Оркестровка и контроль процессов
  • 3) Интеграция корпоративных приложений
    • В модели Enterprise Application Integration (EAI) программные модули взаимодействуют только посредством четко определенных интерфейсных вызовов (Application Programming Interface — API). Хранилище данных можно обновлять только через собственный программный модуль.Другое программное обеспечение не может напрямую обращаться к данным в приложении, только через определенный API. Интеграция корпоративных приложений основана на объектно-ориентированных концепциях, которые подчеркивают возможность повторного использования и замены любого модуля, не затрагивая другие модули.
  • 4) Корпоративная сервисная шина
    • Enterprise Service Bus (ESB) — это система, которая действует как посредник между системами, транспортируя сообщения между ними. Приложения могут инкапсулировать отправленные и полученные сообщения или файлы с помощью существующих возможностей ESB. В качестве примера слабой связи ESB действует как служба между двумя приложениями.
  • 5) Сервис-ориентированная архитектура
    • Сервис-ориентированная архитектура SOA может предоставлять push-данные или обновлять данные посредством определенных сервисных вызовов между приложениями. Цель SOA — определить четко определенные взаимодействия между независимыми программными модулями. Службы данных могут включать добавление, удаление, обновление и извлечение данных, и эти службы указаны в каталоге доступных служб. SOA может быть реализована с помощью различных технологий, таких как веб-службы, обмен сообщениями и API-интерфейсы RESTful.
  • 6) Сложная обработка событий
  • 7) Объединение данных и виртуализация
  • 8) Данные как услуга
  • 9) Интеграция с облаком

2. Мероприятия

Интеграция и совместимость данных связаны с тем, когда, где и как можно получить данные.

2.1 Планирование и анализ

  • (1) Определить требования к интеграции данных и жизненному циклу.
    • Понять бизнес-цели организации, а также данные и рекомендуемые технологические решения, необходимые для достижения этих целей. Определяется бизнес-аналитиками, специалистами по управлению данными и архитекторами с различными функциональными возможностями. Этот процесс создает и обнаруживает метаданные, которые помогают управлять рисками и затратами на данные.
  • (2) Выполните обнаружение данных.
    • Определите потенциальные источники данных для усилий по интеграции данных, а также проведите общую оценку качества данных, чтобы определить, интегрированы ли данные. Исследование данных создает хорошо организованный каталог данных. Необходимо разработать планы по интеграции внутренних и внешних данных.
  • (3) Запишите происхождение данных.
    • Узнайте, как данные проходят через вашу организацию. Анализ происхождения может выявить необходимые обновления используемых систем, а процесс анализа также может предоставить возможности для улучшения существующих потоков данных.
  • (4) Анализ данных. Понимание содержания и структуры данных является ключом к созданию успешных наборов данных.
    • Базовый анализ включает в себя:
      • 1) Формат данных, определенный в структуре данных, и формат, выведенный из фактических данных.
      • 2) Объем данных, включая нулевые значения, пустые уровни данных или уровни данных по умолчанию.
      • 3) Значения данных и их тесная связь с определенным набором допустимых значений.
      • 4) Шаблоны и связи внутри набора данных, такие как связанные поля и правила мощности.
      • 5) Связь с другими числами
  • (5) Сбор бизнес-правил. Сбор бизнес-правил также называется приобретением правил.
    • Сбор бизнес-правил также называется получением правил и анализом бизнес-правил. Бизнес-правила — это ключевое подмножество требований, утверждений, которые определяют или ограничивают аспекты бизнес-обработки. Бизнес-правила предназначены для поддержания бизнес-структуры и контроля или влияния на поведение бизнеса.
    • Достижение интеграции и совместимости данных требует поддержки бизнес-правил:
      • 1) Оценить данные из потенциальных исходных и целевых наборов данных.
      • 2) Управлять потоком данных в организации.
      • 3) Мониторинг оперативных данных в организации
      • 4) Укажите, когда события и оповещения запускаются автоматически.
    • Бизнес-правила делятся на четыре категории:
      • 1) Определение деловых терминов
      • 2) Тот факт, что термины связаны друг с другом
      • 3) Ограничения
      • 4) Поведенческие утверждения и вывод

2.2 Решение для интеграции проектных данных

  • (1) Компоненты проектного решения.
    • Мыслите целостно как на уровне предприятия, так и на уровне отдельных решений. Максимально воспроизведите существующие сценарии и компоненты. Архитектура решения представляет собой технологию, которая будет использоваться, она будет включать перечень задействованных структур данных (постоянных и транзитивных, существующих и требуемых), указание оркестрации и частоты потоков данных, правил, проблем безопасности и исправлений, а также информация о резервном копировании и восстановлении, доступности, архивировании и хранении данных
    • шаг:
      • 1) Выберите модель взаимодействия
      • 2) Проектирование службы данных или модели обмена
  • (2) Модель центра обработки данных, интерфейсов, сообщений и служб передачи данных.
  • (3) Сопоставление данных с целью.
    • Спецификация отображения:
      • 1) Укажите технический формат исходных и целевых данных.
      • 2) Укажите преобразования, необходимые на всех промежуточных точках между исходными и целевыми данными.
      • 3) Опишите, как заполняется каждый атрибут в конечном или промежуточном целевом хранилище данных.
      • 4) Опишите, необходимо ли преобразовать значение данных, например, путем поиска исходного значения в таблице, которая представляет подходящее целевое значение.
      • 5) Опишите, какие расчеты необходимо произвести.
  • (4) Расположение расчетных данных.
    • Схема потока данных от начала до конца, включая все промежуточные шаги, необходимые для завершения преобразований и/или транзакций. Установите частоту перемещения и преобразования данных.

2.3 Разработка решений по интеграции данных

  • (1) Развивать услуги передачи данных.
    • Используйте согласованные инструменты или стандартные пакеты поставщиков.
  • (2) Разработать оркестрацию потоков данных.
    • Разработка потоков данных в реальном времени предполагает мониторинг событий. Может включать разработку картографических или координационных точек между хранилищами данных, включая мониторинг событий.
  • (3) Разработка методов миграции данных
    • Это не одноразовый процесс, часто недооцениваемый или недостаточно продуманный.
  • (4) Разработать метод выпуска
    • Лучшей практикой является определение общего определения сообщения (канонического формата) для различных типов данных в вашей организации и подписка потребителей данных (приложений или отдельных лиц) с соответствующими правами доступа на получение уведомлений об изменениях данных.
  • (5) Разработка сложных потоков обработки событий.
    • Что должно быть сделано:
      • 1) Подготовьте личные, организационные, продуктовые или рыночные исторические данные о прогнозной модели и перед миграцией.
      • 2) Обработка потоков данных в реальном времени для полного заполнения прогнозных моделей и выявления значимых событий (возможностей или угроз).
      • 3) Выполнять триггерные действия на основе прогнозов.
  • (6) Поддерживать метаданные DII.
    • Метаданные должны пройти процесс проверки и утверждения со стороны деловых и технических заинтересованных сторон.

2.4 Реализация и мониторинг

  • Создать механизмы измерения показателей и обратной связи по вопросам. Требуется строгий мониторинг и обслуживание

3. Инструменты

Подробности см. в контекстной диаграмме.

4. Метод

Подробности см. в контекстной диаграмме.

5. Руководство по внедрению

5.1 Оценка готовности/оценка рисков

Решения по интеграции данных должны разрабатываться на основе глубокого понимания бизнеса. План должен оставаться сосредоточенным на бизнесе и потребностях. Должна быть команда, обладающая достаточными полномочиями для реализации интеграции корпоративных данных, поощрения ее с помощью положительных стимулов и наложения вето с помощью мер отрицательного контроля.

6. Интеграция данных и управление функциональной совместимостью

Решения о дизайне сообщений данных, моделях данных и правилах преобразования данных напрямую влияют на способность организации использовать данные. Эти решения должны определяться бизнес-факторами.

Метрики :

  • 1) Доступность данных. Наличие запрашиваемых данных.
  • 2) Объем и скорость данных.
    • Объем переданных и преобразованных данных
    • Анализ объема данных
    • Скорость передачи
    • Задержка между обновлением данных и доступностью
    • Задержка между событием и инициируемым действием
    • Наличие новых источников данных
  • 3) Стоимость и сложность решения.
    • Затраты на разработку и управление решением
    • Простота получения новых данных
    • Решение и сложность эксплуатации
    • Количество систем, использующих решения по интеграции данных

おすすめ

転載: blog.csdn.net/DreamEhome/article/details/132978275