Requisitos del proyecto de almacén de datos de comercio electrónico y diseño de arquitectura.

1. Requisitos del proyecto

1. Construcción de una plataforma de recopilación de datos sobre el comportamiento del usuario.

2. Construcción de plataforma de recopilación de datos empresariales.

3. Modelado dimensional del almacén de datos.

4. Indicadores estadísticos

5. Herramienta de consulta ad hoc para análisis de indicadores en cualquier momento

6. Supervisar el rendimiento del clúster y emitir una alarma cuando se produzcan anomalías (información de terceros)

7. Gestión de metadatos

8.control de calidad

9. Gestión de permisos (nivel de tabla, nivel de campo)

 2. Selección de tecnología

Volumen de datos, necesidades comerciales, experiencia en la industria, madurez tecnológica, costos de desarrollo y mantenimiento y presupuesto de costos totales.

Recopilación y transmisión de datos: Flume, Kafka, Sqoop, Logstash (recopilación de registros), DataX

Almacenamiento de datos: MySQL (capa ADS), HDFS, HBase, Redis, MongoDB

Computación de datos: Hive, Tez, Spark, Flink, Storm

Consulta de datos: Presto, Kylin, Impala, Druid, ClickHouse, Doris

Visualización de datos: ECharts, Superset (código abierto y gratuito) , QuickBI (sin conexión), DATAV (en tiempo real) (productos Alibaba)

Programación de tareas: Azkaban, Oozie, DolphinScheduler, Airflow

Monitoreo de clústeres: Zabbix (sin conexión), Prometheus (en tiempo real)

Gestión de metadatos: Atlas

Gestión de permisos: Ranger, Sentry (Apache los ha eliminado)

 3. Procesamiento del proceso de datos del sistema.

Nginx: equilibrio de carga, principal responsable de equilibrar los datos en cada servidor

Dividido principalmente en datos comerciales  y datos de comportamiento del usuario.

Los datos comerciales se almacenan en MySQL y los datos se sincronizan con el clúster a través de Sqoop.

Los datos de comportamiento del usuario provienen principalmente de puntos enterrados de front-end. Los datos se almacenan en forma de archivos. Los archivos de registro se recopilan en Kafka a través de Flume (para evitar la recopilación directa, evitar un volumen excesivo de datos y la eliminación máxima) y luego sincronizar los datos. al clúster a través de Flume, HIVE On Spark realiza almacenamiento, limpieza, conversión de datos y otras operaciones, y divide los datos en la capa original de datos ODS, la capa de detalles de datos DWD, la capa de servicio de datos DWS, la capa de sujeto de datos DWT y la capa de aplicación de datos ADS .

Los datos de la capa ADS luego se sincronizan con MySQL a través de Sqoop para su análisis y visualización visual (Superset)

Durante el proceso de cálculo, los datos de las capas DWD, DWS y DWT se pueden consultar ad hoc a través de Presto.

El análisis multidimensional de los datos de la capa DWD se puede realizar a través de Kylin y los resultados se pueden almacenar en HBase.

La herramienta de programación de tareas programadas puede utilizar Azkaban

Gestión de metadatos utilizando Atlas

Gestión de permisos usando Ranger

La gestión de la calidad de los datos utiliza Python+Shell

Monitoreo de clústeres usando Zabbix

4. Selección de la versión de lanzamiento del marco y tamaño del clúster

Apache de código abierto y gratuito.

Servidor en la nube: Alibaba Cloud EMR

                  EMR en la nube de Amazon        

                  EMR en la nube de Tencent

                  EMR en la nube de Huawei

La elección de máquina física o servidor en la nube se basa principalmente en las necesidades de la empresa.

Máquina física: el costo del espacio, las facturas de electricidad, el mantenimiento de la máquina y la posterior operación y mantenimiento del servidor son altos y la seguridad es relativamente alta.

Servidor en la nube: alto costo, pero el mantenimiento posterior es más fácil y la seguridad es menor que en las máquinas físicas

¿Cómo comprar un servidor?

1 millón de usuarios diarios* 100 entradas por persona en promedio* Tamaño de registro 1K* Sin expansión durante medio año* 180* Tres copias3* Reserva 20%~30%Buf = 77T

Luego considere las capas del almacén de datos, la compresión de datos, etc.

Planificación y diseño de recursos del cluster.

Principios del grupo de producción:

Separación del consumo de memoria.

Las transferencias de datos están muy espaciadas

El cliente debe ubicarse en un servidor tanto como sea posible para facilitar el acceso externo (seguridad de los datos)

Si hay dependencias, intente ponerlas en un servidor.

Grupo de prueba:

Supongo que te gusta

Origin blog.csdn.net/GX_0824/article/details/132566416
Recomendado
Clasificación