Elasticsearch и архитектура данных: 4 основных инструмента для улучшения аналитики и хранилища

Эмили Макалистер

 

Организации все чаще полагаются на данные для принятия эффективных, основанных на фактических данных решений, которые влияют на результаты бизнеса. Будь то оценка рыночных условий и улучшение качества обслуживания клиентов, обеспечение бесперебойной работы приложений или защита организации, данные из нескольких источников, включая потребителей и внутренние системы, имеют решающее значение для повседневных операций.

Этот подход, основанный на данных, требует от организаций быстрого сбора, хранения и анализа больших объемов данных для принятия своевременных решений. Часто это означает сопоставление и анализ нескольких источников и форматов различной сложности в масштабе.

Elasticsearch® обеспечивает масштабируемость и гибкость для приема, хранения и поиска этих наборов данных, чтобы находить актуальную и полезную информацию с точки зрения бизнеса, наблюдения и безопасности. Однако по мере того, как поступает все больше и больше данных, они могут стать громоздкими и дорогими без использования преимуществ архитектуры и структуры данных, реализованных платформой Elasticsearch.

Решайте распространенные проблемы с данными с помощью Elastic

Как консультант по Elastic, я помогаю многим клиентам объединять несколько источников данных, которые преобразуются и коррелируются для поддержки бизнес-решений, удобства использования платформы и безопасности. Вот некоторые из проблем, которые я помогаю решать организациям, особенно тем, у которых есть несколько источников данных:

  • Прием атрибутов источником данных : это может быть сложно без надлежащей стратегии маркировки/маркировки и принудительного применения.
  • Анализ и корреляция между несколькими источниками данных : это часто бывает сложно из-за конфликтующих имен полей (например, host_name, host.name, name) в каждом наборе данных.
  • Стоимость хранилища . Иногда я обнаруживаю, что многоуровневое хранилище не может быть использовано из-за плохого дизайна индекса и плохого понимания источников данных, которые загружаются. Я также иногда обнаруживаю, что клиенты не знают о новых экономичных функциях.

Разработка и документирование архитектуры данных решают вышеуказанные проблемы посредством планирования и проектирования источников данных в организации. Архитектура данных подробно описывает политики и стандарты того, как данные собираются, обрабатываются и хранятся для использования системами и людьми в организации. После определения следующие четыре инструмента можно использовать для решения этих проблем на техническом уровне с помощью эластичного стека.

 

 

1. Маркировка и маркировка

Инструменты загрузки Elastic Stack, такие как Agent, Beats и Logstash®, предлагают возможность добавлять пользовательские теги и теги, что позволяет легко идентифицировать каждый документ после его сохранения в Elasticsearch. Маркировка или стандарты маркировки, соответствующие архитектуре данных организации, обеспечивают ясность в отношении того, как обрабатываются источники данных.

Быстро изолируйте источники данных с помощью фильтрации по определенным тегам, что позволяет точно и быстро идентифицировать источники данных. Это сокращает время, необходимое для управления важными данными, например для планирования емкости, анализа приема или переноса источников данных между индексами.

Для некоторых клиентов, которые совместно используют развертывания Elastic в нескольких командах, данные об атрибуции возвратных платежей/потреблении лицензий могут быть легко представлены с использованием критериев, соответствующих определенным группам потребителей. В сложных случаях теги и метки также можно использовать для поддержки безопасности на уровне документа с контролем доступа на основе ролей.

Использование стандартов разметки и маркировки также может сократить время, затрачиваемое на разработку визуализаций и выполнение исследовательской деятельности для приложений или систем, которые охватывают несколько источников данных.

2. Упругий общий режим

Корреляции между наборами данных могут стать более сложными, если имена полей несовместимы между источниками данных. Это несоответствие может привести к сложным запросам по нескольким полям, которые представляют одну и ту же информацию (например, host.name: "serverA" или host_name: "serverA" или name: "serverA").

Elastic Common Schema (ECS) предоставляет стандартную схему хранения данных на основе событий в Elasticsearch. Инструменты интеграции и загрузки Elastic (Agent, Beats и Logstash) по умолчанию следуют этому стандарту, чтобы обеспечить согласованные имена полей и типы данных в нескольких источниках данных. Это позволяет вам легко запрашивать все ваши данные, позволяя организациям использовать преимущества предварительно созданных готовых информационных панелей и наших универсальных решений, таких как Elastic Observability и Elastic Security .

ECS дополняет архитектуру данных организации и может служить базовым уровнем, помогающим зафиксировать общий набор стандартных полей для каждого источника данных, отвечая на вопрос «Какие данные дает мне этот источник?»

Фактически, ECS была принята в проект OpenTelemetry , принося пользу пользователям с точки зрения ведения журналов, распределенной трассировки, метрик и событий безопасности.

Узнайте больше о преимуществах Elastic Common Schema .

3. Соглашение о потоке данных

Elastic представил потоки данных в версии 7.9 как улучшенный способ управления данными временных рядов для обеспечения наблюдаемости и безопасности. В рамках этой функции была введена схема именования для лучшего управления наборами данных для слоя индексации путем введения:

  1. тип: описывает общий тип данных
  2. набор данных: описывает полученные данные и их структуру
  3. пространство имен: произвольная группировка, настраиваемая пользователем

Эти три части объединены «-» для создания потока данных, подобного logs-nginx.access-Production. Это означает, что все потоки данных именуются следующим образом:

{type}-{dataset}-{namespace}

В частности, использование параметра пространства имен предоставляет организациям гибкий способ организации и хранения данных в соответствии с требованиями схемы данных.

Подробнее о потоке данных .

4. Уровень данных

Elasticsearch предоставляет возможность распределять данные по разным профилям оборудования, чтобы сбалансировать хранение данных и затраты на инфраструктуру. По мере устаревания данных можно использовать более дешевые и низкопроизводительные уровни для снижения затрат на хранение при сохранении доступа к данным. Это достигается за счет использования стратегий и инструментов управления потоком данных и жизненным циклом индекса для автоматического перемещения данных между различными уровнями данных.

Схема данных дает четкую общую картину принимаемых источников данных и того, как они хранятся в Elasticsearch. Это ключевой вход, который можно использовать для разработки масштабируемой иерархической структуры хранения в кластере Elasticsearch для соответствия различным источникам данных и вариантам использования в организации.

Например, некоторые варианты использования безопасности требуют длительного хранения журналов, и в этом случае холодный или замороженный уровень следует рассматривать как экономичное решение, которое не только сохраняет данные, но и позволяет легко осуществлять поиск в случае возникновения данных: Опрос. Тем не менее, для случаев использования наблюдаемости многим агентам и источникам данных APM требуется быстрый тепловой уровень для немедленного исследования, чтобы быстро решить или уведомить о любых проблемах с производительностью.

Узнайте больше об управлении данными с помощью уровня данных .

Суммируя

Приведенные выше соображения помогут вам избежать некоторых распространенных ошибок и извлечь больше пользы из ваших эластичных развертываний:

  1. Метки и теги, а также соглашения об именах потоков данных позволяют организациям легко защищать, объединять и фильтровать данные по источникам для анализа и управления.
  2. Соответствие Elastic Common Schema позволяет организациям использовать готовые решения, которые делают корреляцию данных из нескольких источников простой и бесшовной.
  3. Масштабируемый уровень данных представляет собой масштабируемое решение, которое оптимизирует затраты на хранение для увеличения объемов данных, позволяя организациям хранить необходимые им данные без ущерба для скорости.

Начните бесплатную 14-дневную пробную версию Elastic Cloud , чтобы узнать, как применять эти инструменты.

おすすめ

転載: blog.csdn.net/UbuntuTouch/article/details/131348079