Data Warehouse_Data Warehouse_Varias ideas para la implementación lenta y gradual de la dimensión

Diseño de la tabla de dimensiones del cambio gradual y lento del almacén de datos.

 

Dimensiones que cambian lentamente:

  Los datos dimensionales cambiarán con el tiempo, y la tasa de cambio es relativamente lenta. Este tipo de datos dimensionales generalmente se llama una dimensión gradual lenta. Debido a que el almacén de datos necesita rastrear los cambios históricos, especialmente algunos datos importantes, el estado histórico también necesita tomar ciertas medidas Guardar.

 

 

Se divide aproximadamente en las siguientes ideas de implementación

 

1) Instantánea completa:

Todos los días para guardar la cantidad total de datos de instantáneas de los datos actuales, esta solución es adecuada para la dimensión del pequeño volumen de datos, utilizando una forma simple de guardar el estado histórico.

 

2) columna de datos adicionales para guardar el estado histórico

Adicional (una columna / columnas múltiples) para retener uno o más valores de estado.

Carné de identidad

nombre

departamento

Last_dept

...

1

jiangtai

DEP1

Dep3

 

 

3) Tecnología de reloj con cremallera

       Cuando los datos de dimensión cambian, los datos antiguos se invalidan y los datos modificados se insertan en la tabla de dimensiones como un nuevo registro y entran en vigencia. Esto puede registrar el historial de cambios de datos con una cierta granularidad.

 

En combinación con la clave sustituta mencionada anteriormente, Uid_org es la clave principal comercial original y Uid_agency es la clave sustituta

Uid_agency

Uid_org

nombre

departamento

Fecha de inicio

Fecha final

1

1

jiangtai

DEP1

20180501

20180509

2

1

jiangtai

Dep2

20180510

20991231

 

Pregunta 1: Cómo obtener el estado de los datos de un día determinado de la tabla de cremalleras

SELECT *

FROM lalian_table

WHERE start_date <= ‘${bizdate}’ AND end_date >= ‘${bizdate}’

 

Ext: cambios lentos y graduales

       La clave sustituta es un método altamente recomendado en el modelado dimensional. Su aplicación puede aislar efectivamente el problema inestable de la estructura del almacén de datos causado por el cambio de fuente, y también puede mejorar el rendimiento de recuperación de datos.

       Sin embargo, como puede ver, el costo de mantenimiento de las claves sustitutas es muy alto, especialmente en el proceso de carga de datos, lo que tiene un mayor impacto en la tabla de hechos. El impacto es aún más grave en la construcción de almacenes de datos basados ​​en HIVE. Por ejemplo, la generación de claves sustitutas, el estado de las claves asociadas en la tabla de hechos y las asociaciones de no equivalencia no son compatibles, lo que hace que el proceso ETL sea más complicado.

       Por lo tanto, bajo el sistema de Big Data, use la clave sustituta con cautela. Al mismo tiempo, para escenas dimensionales graduales lentas, puede considerar el uso del espacio por tiempo y conservar una instantánea completa de la tabla de dimensiones todos los días. Pero esto traerá costos de almacenamiento, medidos de acuerdo con la situación real.

发布了519 篇原创文章 · 获赞 1146 · 访问量 283万+

Supongo que te gusta

Origin blog.csdn.net/u010003835/article/details/104420843
Recomendado
Clasificación