Оглавление
2. Краткое изложение ключевых знаний
2.2 Решение для интеграции проектных данных
2.3 Разработка решений по интеграции данных
5.1 Оценка готовности/оценка рисков
6. Интеграция данных и управление функциональной совместимостью
1. Распределение баллов
CDGA: 2 балла (2 отдельных варианта выбора)
CDGP: 0 очков
2. Краткое изложение ключевых знаний
1. Введение
Контекстная диаграмма:
Интеграция и взаимодействие данных (DII) описывает процессы, связанные с перемещением и интеграцией данных внутри и между разрозненными хранилищами данных, приложениями и организациями.
Интеграция и совместимость данных обеспечивают основные функции управления данными, на которые полагаются организации:
- 1) Миграция и преобразование данных.
- 2) Интеграция данных в центры обработки данных или витрины данных.
- 3) Интегрируйте пакет программного обеспечения поставщика в структуру прикладной системы организации.
- 4) Обмен данными между различными приложениями или организациями.
- 5) Распределите данные по хранилищам данных и центрам обработки данных.
- 6) Архивирование данных.
- 7) Управление интерфейсом данных.
- 8) Получать и получать внешние данные.
- 9) Интеграция структурированных и неструктурированных данных.
- 10) Обеспечивать оперативную разведку и поддержку управленческих решений.
Интеграция и функциональная совместимость данных зависят от других областей управления данными :
- 1) Управление данными. Используется для управления правилами преобразования и структурами сообщений.
- 2) Архитектура данных. для проектирования решения.
- 3) Безопасность данных. Независимо от того, сохраняются ли данные, виртуализируются или передаются между приложениями и организациями, убедитесь, что решение надлежащим образом защищает безопасность данных.
- 4) Метаданные. Перечень технологий, используемых для понимания данных (постоянных, виртуальных и динамических), бизнес-значения данных, бизнес-правил преобразования данных, истории операций с данными и происхождения данных.
- 5) Хранение и эксплуатация данных. Управляйте физическим воплощением решения.
- 6) Моделирование и проектирование данных. Используется для проектирования структур данных, включая физические структуры персистентности в базах данных, виртуальные структуры данных и структуры сообщений, которые передаются между приложениями и организациями.
1.1 Бизнес-факторы
Интеграция и функциональная совместимость данных лежат в основе развивающейся области управления большими данными, основной целью которой является эффективное управление перемещением данных. Основная ответственность заключается в управлении двусторонним потоком данных между репозиториями внутри организации и другими организациями.
Бизнес-драйверы :
- (1) Управление сложностью интеграции данных и связанными с ней затратами являются причинами создания архитектуры интеграции данных.
- (2) Затраты на техническое обслуживание и управление
- (3) Поддержка способности организации соблюдать стандарты и правила обработки данных.
1.2 Цели и принципы
Цель:
- 1) Своевременно предоставлять безопасные и соответствующие требованиям данные в необходимом формате.
- 2) Создавайте и разрабатывайте общие модели и интерфейсы для снижения стоимости и сложности решений.
- 3) Выявляйте значимые события и автоматически запускайте предупреждения и действия.
- 4) Поддержка бизнес-аналитики, анализа данных и управления основными данными, а также стремление к повышению операционной эффективности.
Принципы :
- 1) Принять корпоративную перспективу для обеспечения будущей масштабируемости, достигаемой за счет итеративной и поэтапной доставки.
- 2) Сбалансируйте потребности в локальных данных с потребностями в корпоративных данных, включая поддержку и обслуживание.
- 3) Обеспечить надежность проектов и мероприятий по интеграции и функциональной совместимости данных. Бизнес-эксперты должны участвовать в разработке и изменении правил преобразования данных, включая сохранение и виртуализацию.
1.3 Основные понятия
Извлечение, преобразование, загрузка (ETL)
В основе интеграции и совместимости данных лежит базовый процесс извлечения, преобразования и загрузки (ETL).
Обычно используется в хранилищах данных
Если целевая система имеет более сильные возможности преобразования, чем исходная система или промежуточная прикладная система, порядок обработки данных можно переключить на ELT — извлечение, загрузка, преобразование.
- Извлечение. Процесс извлечения включает в себя выбор необходимых данных и их извлечение из исходных данных.
- Преобразование:
- Пример конвертации
- 1) Изменения формата. Преобразование технического формата, например преобразование формата EBCDIC в ASCII.
- 2) Структурные изменения. Изменения в структуре данных, например, от денормализованных записей к нормализованным.
- 3) Семантическое преобразование. Сохраняйте единообразное выражение семантики при преобразовании значений данных. Например, исходный гендерный код может включать 0, 1, 2 и 3, а целевой гендерный код может быть выражен как НЕИЗВЕСТНО, ЖЕНСКИЙ, МУЖЧИНА или НЕ ПРЕДОСТАВЛЕНО.
- 4)) Устранить дублирование. Если правило требует уникального ключа или записи, убедитесь, что вы включили способ сканирования цели, а также обнаружения и удаления повторяющихся строк.
- 5) Переупорядочить. Измените порядок элементов данных или записей в соответствии с определенной схемой.
- Пример конвертации
- Загрузка: Процесс загрузки представляет собой физическое хранение или представление результатов преобразования в целевой системе.
Задержка : Задержка относится к разнице во времени между исходной системой, генерирующей данные, и целевой системой, предоставляющей данные.
- Пакетная обработка:
- Задержка: Очень высокая
- Изменить сбор данных :
- Определение: Сбор измененных данных — это метод снижения требований к пропускной способности доставки за счет добавления фильтрации, позволяющей включать только данные, которые изменились в течение определенного периода времени.
- технологии:
- 1) Исходная система заполняет определенные элементы данных.
- 2) Процесс исходной системы добавляется к простому списку объектов и идентификаторов при изменении данных, который затем используется для управления выбором извлекаемых данных.
- 3) Исходная система копирует измененные данные.
- Практически в режиме реального времени и на основе событий
- Задержка: выше
- асинхронный
- Синхронизация в реальном времени
- Задержка: очень низкая
- Низкая задержка или потоковая обработка
Репликация . Некоторые приложения поддерживают точные копии наборов данных в нескольких физических местах. Технология репликации минимизирует влияние аналитики и запросов на производительность основной операционной среды транзакций.
Архивирование : данные, которые используются нечасто, можно переместить в альтернативную структуру данных или решение для хранения, которое менее затратно для организации.
Модель взаимодействия . Модель взаимодействия описывает способ установления соединений между системами для передачи данных.
- точка-точка
- Проблемы:
- 1) Ударная обработка
- 2) Интерфейс управления
- 3) Возможные несоответствия
- Проблемы:
- Центр обработки данных: он объединяет общие данные (физические или виртуальные) в центральный центр обработки данных, который может использоваться приложениями. Например, ESB (корпоративная сервисная шина).
- публиковать и подписываться
Концепции архитектуры интеграции и взаимодействия данных:
- 1) Связь приложений. Связь описывает степень переплетения двух систем.
- 2) Оркестровка и контроль процессов
- 3) Интеграция корпоративных приложений
- В модели Enterprise Application Integration (EAI) программные модули взаимодействуют только посредством четко определенных интерфейсных вызовов (Application Programming Interface — API). Хранилище данных можно обновлять только через собственный программный модуль.Другое программное обеспечение не может напрямую обращаться к данным в приложении, только через определенный API. Интеграция корпоративных приложений основана на объектно-ориентированных концепциях, которые подчеркивают возможность повторного использования и замены любого модуля, не затрагивая другие модули.
- 4) Корпоративная сервисная шина
- Enterprise Service Bus (ESB) — это система, которая действует как посредник между системами, транспортируя сообщения между ними. Приложения могут инкапсулировать отправленные и полученные сообщения или файлы с помощью существующих возможностей ESB. В качестве примера слабой связи ESB действует как служба между двумя приложениями.
- 5) Сервис-ориентированная архитектура
- Сервис-ориентированная архитектура SOA может предоставлять push-данные или обновлять данные посредством определенных сервисных вызовов между приложениями. Цель SOA — определить четко определенные взаимодействия между независимыми программными модулями. Службы данных могут включать добавление, удаление, обновление и извлечение данных, и эти службы указаны в каталоге доступных служб. SOA может быть реализована с помощью различных технологий, таких как веб-службы, обмен сообщениями и API-интерфейсы RESTful.
- 6) Сложная обработка событий
- 7) Объединение данных и виртуализация
- 8) Данные как услуга
- 9) Интеграция с облаком
2. Мероприятия
Интеграция и совместимость данных связаны с тем, когда, где и как можно получить данные.
2.1 Планирование и анализ
- (1) Определить требования к интеграции данных и жизненному циклу.
- Понять бизнес-цели организации, а также данные и рекомендуемые технологические решения, необходимые для достижения этих целей. Определяется бизнес-аналитиками, специалистами по управлению данными и архитекторами с различными функциональными возможностями. Этот процесс создает и обнаруживает метаданные, которые помогают управлять рисками и затратами на данные.
- (2) Выполните обнаружение данных.
- Определите потенциальные источники данных для усилий по интеграции данных, а также проведите общую оценку качества данных, чтобы определить, интегрированы ли данные. Исследование данных создает хорошо организованный каталог данных. Необходимо разработать планы по интеграции внутренних и внешних данных.
- (3) Запишите происхождение данных.
- Узнайте, как данные проходят через вашу организацию. Анализ происхождения может выявить необходимые обновления используемых систем, а процесс анализа также может предоставить возможности для улучшения существующих потоков данных.
- (4) Анализ данных. Понимание содержания и структуры данных является ключом к созданию успешных наборов данных.
- Базовый анализ включает в себя:
- 1) Формат данных, определенный в структуре данных, и формат, выведенный из фактических данных.
- 2) Объем данных, включая нулевые значения, пустые уровни данных или уровни данных по умолчанию.
- 3) Значения данных и их тесная связь с определенным набором допустимых значений.
- 4) Шаблоны и связи внутри набора данных, такие как связанные поля и правила мощности.
- 5) Связь с другими числами
- Базовый анализ включает в себя:
- (5) Сбор бизнес-правил. Сбор бизнес-правил также называется приобретением правил.
- Сбор бизнес-правил также называется получением правил и анализом бизнес-правил. Бизнес-правила — это ключевое подмножество требований, утверждений, которые определяют или ограничивают аспекты бизнес-обработки. Бизнес-правила предназначены для поддержания бизнес-структуры и контроля или влияния на поведение бизнеса.
- Достижение интеграции и совместимости данных требует поддержки бизнес-правил:
- 1) Оценить данные из потенциальных исходных и целевых наборов данных.
- 2) Управлять потоком данных в организации.
- 3) Мониторинг оперативных данных в организации
- 4) Укажите, когда события и оповещения запускаются автоматически.
- Бизнес-правила делятся на четыре категории:
- 1) Определение деловых терминов
- 2) Тот факт, что термины связаны друг с другом
- 3) Ограничения
- 4) Поведенческие утверждения и вывод
2.2 Решение для интеграции проектных данных
- (1) Компоненты проектного решения.
- Мыслите целостно как на уровне предприятия, так и на уровне отдельных решений. Максимально воспроизведите существующие сценарии и компоненты. Архитектура решения представляет собой технологию, которая будет использоваться, она будет включать перечень задействованных структур данных (постоянных и транзитивных, существующих и требуемых), указание оркестрации и частоты потоков данных, правил, проблем безопасности и исправлений, а также информация о резервном копировании и восстановлении, доступности, архивировании и хранении данных
- шаг:
- 1) Выберите модель взаимодействия
- 2) Проектирование службы данных или модели обмена
- (2) Модель центра обработки данных, интерфейсов, сообщений и служб передачи данных.
- (3) Сопоставление данных с целью.
- Спецификация отображения:
- 1) Укажите технический формат исходных и целевых данных.
- 2) Укажите преобразования, необходимые на всех промежуточных точках между исходными и целевыми данными.
- 3) Опишите, как заполняется каждый атрибут в конечном или промежуточном целевом хранилище данных.
- 4) Опишите, необходимо ли преобразовать значение данных, например, путем поиска исходного значения в таблице, которая представляет подходящее целевое значение.
- 5) Опишите, какие расчеты необходимо произвести.
- Спецификация отображения:
- (4) Расположение расчетных данных.
- Схема потока данных от начала до конца, включая все промежуточные шаги, необходимые для завершения преобразований и/или транзакций. Установите частоту перемещения и преобразования данных.
2.3 Разработка решений по интеграции данных
- (1) Развивать услуги передачи данных.
- Используйте согласованные инструменты или стандартные пакеты поставщиков.
- (2) Разработать оркестрацию потоков данных.
- Разработка потоков данных в реальном времени предполагает мониторинг событий. Может включать разработку картографических или координационных точек между хранилищами данных, включая мониторинг событий.
- (3) Разработка методов миграции данных
- Это не одноразовый процесс, часто недооцениваемый или недостаточно продуманный.
- (4) Разработать метод выпуска
- Лучшей практикой является определение общего определения сообщения (канонического формата) для различных типов данных в вашей организации и подписка потребителей данных (приложений или отдельных лиц) с соответствующими правами доступа на получение уведомлений об изменениях данных.
- (5) Разработка сложных потоков обработки событий.
- Что должно быть сделано:
- 1) Подготовьте личные, организационные, продуктовые или рыночные исторические данные о прогнозной модели и перед миграцией.
- 2) Обработка потоков данных в реальном времени для полного заполнения прогнозных моделей и выявления значимых событий (возможностей или угроз).
- 3) Выполнять триггерные действия на основе прогнозов.
- Что должно быть сделано:
- (6) Поддерживать метаданные DII.
- Метаданные должны пройти процесс проверки и утверждения со стороны деловых и технических заинтересованных сторон.
2.4 Реализация и мониторинг
- Создать механизмы измерения показателей и обратной связи по вопросам. Требуется строгий мониторинг и обслуживание
3. Инструменты
Подробности см. в контекстной диаграмме.
4. Метод
Подробности см. в контекстной диаграмме.
5. Руководство по внедрению
5.1 Оценка готовности/оценка рисков
Решения по интеграции данных должны разрабатываться на основе глубокого понимания бизнеса. План должен оставаться сосредоточенным на бизнесе и потребностях. Должна быть команда, обладающая достаточными полномочиями для реализации интеграции корпоративных данных, поощрения ее с помощью положительных стимулов и наложения вето с помощью мер отрицательного контроля.
6. Интеграция данных и управление функциональной совместимостью
Решения о дизайне сообщений данных, моделях данных и правилах преобразования данных напрямую влияют на способность организации использовать данные. Эти решения должны определяться бизнес-факторами.
Метрики :
- 1) Доступность данных. Наличие запрашиваемых данных.
- 2) Объем и скорость данных.
- Объем переданных и преобразованных данных
- Анализ объема данных
- Скорость передачи
- Задержка между обновлением данных и доступностью
- Задержка между событием и инициируемым действием
- Наличие новых источников данных
- 3) Стоимость и сложность решения.
- Затраты на разработку и управление решением
- Простота получения новых данных
- Решение и сложность эксплуатации
- Количество систем, использующих решения по интеграции данных