Big Data | El concepto de capas del almacén de datos [Notas de estudio]

El análisis más completo de la estratificación del almacén de datos, que resuelve la estratificación del almacén de datos empresarial en un solo artículo: sala de autoestudio del programador Bai

Explicación detallada de la clasificación por niveles del almacén de datos - Youerhut


El significado de la estratificación de datos
  • Desacoplamiento , simplificación de problemas complejos: descomponga tareas complejas en varios pasos para completar, cada capa resuelve un problema específico
  • Estructura de datos clara: cada capa de datos tiene su función y responsabilidades, lo que facilita su localización y comprensión al utilizar tablas.
  • Reduzca el desarrollo repetido: estandarice la estratificación de datos y desarrolle algunos datos comunes de nivel medio, lo que puede reducir los cálculos repetidos enormes.
  • Calibre de datos unificado: a través de capas de datos, se proporciona una exportación de datos unificada y se unifica el calibre de datos para la salida externa.
  • Acortar el proceso de localización de problemas
Estratificación del almacén de datos
ODS (Operation Data Store): área de preparación de datos/capa de operación de datos
  • Bibliotecas comerciales, datos básicos, registros ocultos, colas de mensajes, etc. que acceden directamente a los datos de origen.
  • Área de preparación de capas de almacén de datos
DWD (Detalle del almacén de datos): capa de detalle de datos
  • La capa de aislamiento entre la capa empresarial y la capa de almacén de datos mantiene la misma granularidad que la capa ODS.
  • Proporcionar cierta garantía de calidad de los datos (operaciones de normalización y limpieza de datos, eliminación de datos vacíos y sucios, valores atípicos, etc.)
DWM (Data Warehouse Middle): capa intermedia de datos
  • Con base en la capa DWD, las operaciones se agregan ligeramente para calcular los indicadores estadísticos correspondientes.
  • Después de la agregación, se generará una "tabla intermedia"
DWS (Data Warehouse Service): capa de servicio de datos
  • Basado en la capa DWM, intégrela y resúmala en una capa de servicio de datos temáticos
  • Los resultados resumidos suelen ser "tablas amplias", utilizadas para OLAP, distribución de datos, etc.
DIM: Capa de dimensión común
  • Con base en el concepto de modelado dimensional, establezca dimensiones consistentes en toda la empresa para reducir el riesgo de calibres y algoritmos de cálculo de datos inconsistentes.
ADS (Application Data Service): capa de aplicación de datos
  • Almacenado en ES, Redis, PostgreSql y otros sistemas para análisis y minería de datos.
  • Los "informes de datos" generalmente se almacenan en esta capa.
Estándares de diseño de almacenes de datos
  • Integridad: la capa de resumen hace referencia a la capa DWD tanto como sea posible, y la capa ODS hace la menor referencia posible a otra capa que no sea la capa DWD, preferiblemente ninguna.
  • Reutilizabilidad: la mayoría de los requisitos están respaldados por tablas en la capa DWS
  • Estandarización: principalmente desde la perspectiva de la visualización y los nombres de los campos, una visualización estandarizada debe incluir información como nivel, área temática, reglas de partición, tipo de extracción, etc. La especificación del campo debe ser coherente con la palabra raíz y tener el mismo nombre que el campo.
Tablas de hechos y dimensiones

La tabla de hechos se refiere a una tabla que almacena registros de hechos, como registros del sistema, registros de ventas, etc. Los registros de la tabla de hechos crecen constantemente, por lo que el tamaño de la tabla de hechos suele ser mucho mayor que el de otras tablas.

La tabla de dimensiones, también conocida como tabla de búsqueda, es una oferta exitosa correspondiente a la tabla de hechos, guarda los valores de los atributos de las dimensiones y se puede asociar con la tabla de hechos, lo que equivale a extraer y estandarizar la atributos repetidos con frecuencia en la tabla de hechos y utilizando una gestión de tablas. La tabla de dimensiones contiene principalmente dos partes:

  • Datos dimensionales de alta cardinalidad: generalmente tablas de datos similares a las tablas de datos de usuario y tablas de datos de productos, el volumen de datos puede ser de decenas de millones o cientos de millones.
  • Datos dimensionales de baja cardinalidad: generalmente tablas de configuración, como el significado chino de campos enumerados o tablas de dimensiones de fecha, etc.; la cantidad de datos puede ser de un solo dígito o decenas de miles.

Las tablas de dimensiones comunes incluyen: tabla de fechas (que almacena atributos como semana, mes, trimestre, etc. correspondientes a la fecha), tabla de ubicación (que incluye atributos como país, ciudad, estado, ciudad, etc.)

Supongo que te gusta

Origin blog.csdn.net/Changxing_J/article/details/133202413
Recomendado
Clasificación