Resumen del flujo de procesamiento de datos

El procesamiento de datos es la parte más importante del administrador de productos de datos. En comparación con la visualización del informe final, el informe de análisis y la conducción de datos, esta parte suele llevar mucho tiempo y un valor bajo, pero ocupa todo el cuerpo. A menudo escuchamos que los resultados del análisis de datos de la misma función son diametralmente opuestos, rastreando las razones y descubriendo que hay errores en el proceso de procesamiento de datos.

 

Este artículo analizará el proceso del flujo de datos después de la recopilación de datos desde la perspectiva de los productos de datos y explicará un almacén de datos que es un poco tecnológico, pero que está estrechamente relacionado con la salida de los productos de datos.

1. Procesamiento de datos

Una gran parte del trabajo del gerente de productos de datos es convertir los datos inestimables en informes visibles e informes de análisis concluyentes, es decir, resumir los datos de varias fuentes de datos heterogéneos y finalmente mostrarlos como Informes, paneles, consultas de análisis de datos dinámicos, informes de análisis concluyentes, etc.

1. ¿Cuáles son las fuentes de datos heterogéneas?

  • Registros de comportamiento del usuario del servidor y del cliente
  • La información histórica del usuario, información cualitativa (por ejemplo, género, datos de perfil de usuario profesional), información cuantitativa (por ejemplo, un cierto grado de interés en los últimos 30 días)
  • Información obtenida por terceros, por ejemplo, datos del rastreador, datos recopilados manualmente, etc.

2. La mayor parte de esta información requiere un procesamiento y limpieza secundarios para generar datos estructurados

  • La limpieza e integración de datos sucios, por ejemplo, los datos demorados se resumen de acuerdo con la fecha de ocurrencia;
  • Genere tablas básicas para mejorar la facilidad de uso de los datos, como tablas básicas de datos básicos de usuario y datos de comportamiento;
  • Genere tablas de aplicaciones empresariales estructuradas por comportamiento y usuario que se puedan aplicar directamente a informes y análisis;

Los dos pasos de subestimación son los puntos clave que afectan la presentación y el análisis del informe, y también son los lugares en los que el gerente de productos de datos debe ocuparse más.

2. Almacén de datos

El proceso de procesamiento de datos es a menudo vago, pero en el proceso de "fuentes de datos heterogéneas-> tablas de datos estructurados-> informes / informes de análisis", nuestras diversas tablas de bases de datos comunes son las entidades del almacén de datos , como la colmena común, la chispa , Oráculo, etc. ¿A qué puntos de conocimiento del almacén de datos se debe prestar atención en el procesamiento diario de datos de los gerentes de productos de datos?

1. Capas de almacenamiento de datos

¿Por qué quieres estratificar?

  1. Gestión más clara y datos de seguimiento (estructura de datos limpia, relación de sangre clara): nos ayudan a encontrar el enlace completo del procesamiento de datos;
  2. Reduzca los cálculos redundantes estableciendo una tabla intermedia común: una tabla intermedia común puede proporcionar efectivamente una tabla de datos que puede contribuir directamente a los datos comerciales posteriores, para evitar producir una tabla de datos comerciales a partir de los datos originales cada vez;
  3. Las capas de almacenamiento de datos claras nos ayudarán a descomponer el proceso de procesamiento de datos: desarme aplicaciones de datos complejas-> empresariales en múltiples pasos, y cada capa solo procesa un solo paso

¿Qué es la estratificación de datos? ¿A qué debemos prestar atención en cada capa?

Almacén de datos operativos (ODS, Almacén de datos operativos): los datos en este nivel están más cerca de la apariencia original de la fuente de datos (el contenido y la granularidad son consistentes con los datos originales). Por lo general, la fuente de datos se almacena directamente después de pasar por ETL. Desde los datos originales hasta la capa ODS, no se recomienda hacer una limpieza de datos compleja, para no destruir los datos originales y causar un costo innecesario de investigación.

Se recomienda que solo

  • Asigne el registro registrado por json a cada campo;
  • Limpieza de datos de trampas;
  • Transcodificación de datos: asignación de códigos a valores con significado real
  • Normalización de datos, por ejemplo, formatee todas las fechas en formato AAAA-MM-DD;
  • Reparación de valores anormales, por ejemplo, lista de reproducción de video: (incluyendo identificación de usuario, identificación de video, emisor, tiempo de reproducción, etc.).

Si una tabla se divide en capas ODS, es necesario confirmar si se limpian los campos significativos de los datos originales.

Capa de datos detallados (DWD, Data Warehouse Detail): realice algunas operaciones de limpieza y normalización de datos a nivel empresarial en la capa ODS, una tabla de nivel de registro de, por ejemplo, usuarios que reproducen videos;

Si una tabla se divide en capas DWD , ¿registra clara y claramente los datos detallados a nivel comercial?

Resumen del depósito de datos (DWS, resumen del depósito de datos): de acuerdo con los requisitos comerciales, se resumen los datos de la capa ODS / DWD, como un video de reproducción con información de retrato del usuario;

Si se trata de una tabla en la capa DWS, ¿puede cumplir de manera efectiva y conveniente los requisitos estadísticos de la dirección comercial?

Capa de datos de aplicación (ADS, Application Data Store): los resultados de datos estadísticos que la empresa necesita llevar a cabo, como las estadísticas de reproducción de video de varios tipos de usuarios.

Si se trata de una tabla de capas ADS, ¿puede obtener los datos estadísticos requeridos por la empresa?

Tabla de dimensiones (DIM) : almacena información básica, como la tabla de atributos del usuario: género, edad, etc.

Si es una tabla en la capa DIM, ¿registra completamente las diversas dimensiones necesarias para el análisis o las estadísticas posteriores?

Además de estar fijado a capas, por supuesto, hay tablas temporales (TEM).

Clasificación de datos del almacén de datos de Alibaba / Huawei: capa de datos de operación (ODS), capa de datos de detalle (DWD), capa de datos de resumen (DWS) y capa de datos de aplicación (ADS), tabla de dimensiones (DIM); capa de datos de operación, capa de datos de detalle La capa de datos de resumen es una capa de datos pública.

Además, cuando se trata de la tabla, es necesario considerar completamente qué papel siguen los alumnos en esta tabla. ¿Es la tabla fácil de usar? ¿El contenido es redundante? ¿Es seguro?

  • ¿Pueden los estudiantes de la línea de negocios obtener los resultados de los datos a través de unas simples declaraciones SQL?
  • ¿Se pueden obtener las estadísticas de una sola tabla o necesito obtener varias tablas?
  • ¿El contenido de una sola tabla es redundante? ¿Afectará la eficiencia de la consulta?
  • Cuando hay una asociación de tablas múltiples, ¿habrá dificultades en la comprensión del negocio? ¿Es el campo entre, por ejemplo, tablas múltiples uno a uno, uno a muchos o muchos a muchos? ¿Cómo hacer que los usuarios entiendan claramente?
  • ¿La tabla involucra campos sensibles, como cantidad, etc. ¿Los grupos de usuarios tienen autoridad suficiente para obtener esta información?

2. Gestión de metadatos

Los metadatos y las aplicaciones también son una parte importante de un almacén de datos: son datos sobre datos (datos sobre datos) e información de atributos que describen datos, que pueden ayudarnos a encontrar los datos que les interesan de manera muy conveniente.

¿Qué información registran los metadatos?

  • Estructura de la tabla de datos: información de campo, información de partición, información de índice, etc.
  • Uso de datos y permisos: almacenamiento de espacio, registros de lectura-escritura, registros de modificación, atribución de permisos, registros de auditoría y otra información;
  • La información de la relación sanguínea de los datos: La información de la relación sanguínea es simplemente la relación aguas arriba y aguas abajo de los datos. ¿De dónde provienen los datos? A través de la relación de sangre, podemos entender la relación de dependencia entre las tareas que producen estos datos, y luego ayudar a la programación del sistema de programación, o se utiliza para determinar qué datos posteriores puede afectar una tarea errónea o errónea, etc. También puede ayudarnos a localizar problemas durante la resolución de problemas de datos.
  • Información del atributo comercial de datos: registre el propósito comercial de esta tabla, el calibre estadístico específico de cada campo, la descripción comercial, el registro de cambio histórico, el motivo del cambio, etc.
    Esta parte de los datos se completa principalmente en forma manual, pero puede mejorar en gran medida la conveniencia en el proceso de uso de los datos.

3. Almacén de datos fuera de línea y almacén de datos en tiempo real

Además, de acuerdo con los datos en tiempo real, el almacén de datos se puede dividir en un almacén de datos fuera de línea y un almacén de datos en tiempo real.

  • El almacén de datos fuera de línea registra principalmente datos por encima de t-1, y calcula principalmente datos de días, semanas y meses;
  • El almacén de datos en tiempo real surge con la demanda de la gente de visualización, análisis y algoritmos de datos en tiempo real.

4. Resumen

El proceso de procesamiento de datos es la parte más lenta del informe de salida y el informe de análisis del administrador de productos de datos. Comprender los conceptos y puntos clave del almacén de datos puede ayudarnos a procesar los datos de manera clara y efectiva, mejorar la eficiencia del trabajo y pasar más tiempo. Para una visión empresarial.

Publicó 15 artículos originales · elogió 3 · 10,000+ vistas

Supongo que te gusta

Origin blog.csdn.net/edward_2017/article/details/98207648
Recomendado
Clasificación