O ponto problemático da construção da plataforma de dados, como realizar a governança de metadados?

 1. O que são metadados

1.1. Introdução aos metadados

 Metadados ( Metadados ), também conhecidos como dados intermediários e dados de retransmissão , são os dados que descrevem dados (dados sobre dados), descrevendo principalmente as informações de atributos de dados (propriedade) , usados ​​para dar suporte, como indicar local de armazenamento, dados históricos , pesquisa de recursos , gravação de arquivo e outras funções são chamadas de dados de dados.

1.2. Classificação de metadados

metadados contente Origem do conteúdo Suporte ao gerenciamento de ativos
metadados técnicos superfície mysql, ES, HIVE, clickhouse mapa de ativos
Operação ETL,DATAX,SQL,QUERY
metadados de produção Produção Sistema de programação/Fio Qualidade de Dados, Governança de Custos


metadados de negócios
Classificação do Data Warehouse Especificação de modelagem


Valor do ativo, governança de segurança, governança padronizada
classificação de dados negócios
Correlação de índice Sistema indicador
informações do aplicativo BI Kanban, relatório de dados
Classificação de privacidade negócios
metadados derivados medição de armazenamento ClickHouse, ES, HDFS, MQ Governança de custos, valor do ativo
medição de acesso SQL-log
Metadados de linhagem relação de sangue Flink, DATAX, ETL, Mapeamento de Ativos, Análise de Impacto
linhagem de campo SQL-Log,HOOK

2. Por que a governança de metadados é necessária

A formulação da especificação de dados é mais padronizada, a qualidade dos dados é aprimorada, a estrutura do diretório de dados é mais clara, os ativos de dados são mais claros e o custo dos dados é mais controlável!

O núcleo do gerenciamento de dados é a construção da plataforma de metadados, que suporta a aplicação da camada superior de gerenciamento de dados com metadados

3. Status atual da construção da governança de metadados

  1. Pouca ou nenhuma informação de metadados
  2. Sem especificações padrão de acesso a dados e diretrizes de desenvolvimento de dados, é difícil abrir e controlar as permissões de abertura de dados
  3. Baixa qualidade de dados, anomalias de dados são difíceis de monitorar
  4. Os ativos de dados não são claros. Quando você deseja os dados, não sabe se os dados estão disponíveis ou não.
  5. A estimativa de custo de dados é difícil

Capacidades que devem ser possuídas na construção da plataforma de metadados

4. Aplicação de metadados

4.1. Mapa de Dados: Pesquisa e Descoberta de Metadados

  • Tabela de suporte, campo, informações de descrição, camadas de data warehouse, classificação de dados, rótulo, departamento e outras pesquisas de informações
  • Pesquisa global de metadados
  • Suporta a busca de informações como placas de dimensão do indicador

Resolva o problema: o gerenciamento de ativos de dados é caótico, a classificação de dados não é clara e não está claro quais ativos de dados existem.


Solução técnica: sem dificuldade

4.2. Linhagem de Dados

  • Visualização do ciclo de vida dos dados
  • Alarme anormal de link de dados
  • Notificação de alteração de dados

Resolução de problemas: detecção de alterações de dados upstream e downstream, controle do ciclo de vida dos dados e detecção completa de anomalias no link.

Solução técnica: Altas, analisador SQL. Flink, função de gancho

4.3. Monitoramento e Governança de Custos 

Painel de custos de armazenamento de dados

  • Diferentes magnitudes de dados de armazenamento de dados do mecanismo de armazenamento
  • Use o consumo de recursos da máquina virtual, como CPU, largura de banda de rede, disco rígido, etc.
  • Tendência de uso de recursos, orçamento de custos

Resolva o problema: resolva os problemas de ativos de dados pouco claros e custos de armazenamento incontroláveis, para que os ativos de dados sejam claros e o número inferior seja claro

Solução técnica: Ponto de enterramento de dados, operação de docagem e relatório da situação dos recursos do sistema de manutenção.

4.4. Diagnóstico de qualidade de dados

Resolução de problemas: controle de custo de dados,

 4.5. Painel de custo de armazenamento de dados

Acho que você gosta

Origin blog.csdn.net/b379685397/article/details/127093533
Recomendado
Clasificación