Gobierno Corporativo - Intercambio de Experiencias

Este artículo se ha sincronizado con la base de conocimiento pública de Yuque "Manual de arquitectura de tecnología de Big Data-1"; el backstage de la cuenta oficial puede responder con el "código de registro del mini programa" para ver el mini programa de preguntas de la entrevista de forma gratuita

prefacio

Como persona de datos, a menudo me río de mí mismo como SQL Boy. Un día, de repente descubrí que SQL Boy tiene un contenido de trabajo más avanzado: gobierno de datos. En los últimos dos años, muchos peces gordos han compartido muchos productos secos sobre el gobierno de datos y la transformación digital, y he aprendido mucho de ellos. Pero todavía hay una gran diferencia entre dominar estos contenidos y aprender a programar: aprender a programar puede lograr la unidad de conocimiento y acción a través de algunas prácticas de demostración simples, pero la gobernanza debe combinar múltiples factores, como organización, proceso, cultura y sistema, y necesita estar en un nivel más alto. Solo cuando el tiempo, el lugar y las personas están en armonía podemos lograr verdaderamente la unidad de conocimiento y acción.

Curiosamente, no hace mucho, conversé con algunos buenos amigos sobre el contenido de su trabajo respectivo y descubrí que todos están más o menos haciendo una cosa: reducir costos y aumentar la eficiencia. No es difícil ver que, bajo la influencia de las principales tendencias, como la epidemia y la desaceleración macroeconómica, las empresas han comenzado a tomar la transformación, la reducción de costos y el aumento de la eficiencia como sus principales objetivos. En la actualidad, los objetivos y el trabajo de gobierno de muchas empresas coinciden entre sí, lo que también brinda mejores oportunidades de desarrollo para muchos estudiantes de datos. El año pasado, el autor tuvo la suerte de liderar la promoción del trabajo de gobierno corporativo, por un lado, este artículo sirve como una revisión del trabajo, y por otro lado, espero que parte del contenido de este artículo pueda ayudar a los estudiantes que están participando en el trabajo de gobierno.

Debido a la capacidad y el nivel limitados del autor, si hay algún error, por favor denme algunos consejos.

Antes de la gobernanza

Mirando hacia atrás en el pasado, el primer equipo siempre ha estado en el camino de la gobernanza a corto plazo, y no fue hasta el último trimestre de 21 que comenzó el trabajo de gobernanza real y sistemático. Teniendo en cuenta la situación actual de la empresa, antes de llevar a cabo el trabajo de gobernanza, el equipo ha realizado mucho trabajo preparatorio:
1. ¿Cuáles son los puntos débiles internos actuales?
2. ¿Dónde está el límite y la profundidad de la gobernanza?
3. ¿Cómo formular la ruta de implementación del trabajo de gobernanza?
4. ¿Cómo establecer un sistema de evaluación de la gobernanza aplicable a sí mismo?
5. ¿Cómo lograr un equilibrio entre el trabajo de gobierno y el apoyo comercial diario?

Como dice el refrán: si tienes el camino pero no las habilidades, aún puedes buscar las habilidades; si tienes las habilidades pero no las formas, detente en las habilidades. Si los estudiantes reservan algún conocimiento sobre el gobierno de datos, los puntos anteriores se pueden encontrar en libros relevantes.

A continuación se presentarán los puntos anteriores en detalle:

Puntos de dolor

Punto problemático 1 : para respaldar rápidamente el negocio en los primeros días de Data Warehouse, junto con la iteración relativamente rápida del personal y la poca conciencia de la documentación, muchas tareas históricas no pueden rastrear la fuente de sus necesidades comerciales y el valor de la aplicación, y han caído. en una situación embarazosa en la que no se atreven a desconectarse ( faltan metadatos comerciales )

Punto problemático 2 : El desarrollo comercial del grupo está cambiando muy rápido. Algunos de los temas y dominios del almacén de datos en la división de diseño inicial han sido poco claros e inaplicables, y el nivel incompleto de la herramienta no puede garantizar la estandarización. Para el mantenimiento posterior del personal del almacén de datos El costo es muy alto ( el diseño del modelo no es claro ni estandarizado )

Punto problemático 3 : en la actualidad, hay más de 7000 tareas en la plataforma y se hace referencia repetidamente a la lógica de cálculo de muchas tareas. Sin embargo, debido a la falta de información de referencia en la granularidad de la tabla y la falta de una gestión de índice unificada, es imposible ubicar con precisión qué tareas tienen cálculos dobles (cálculos dobles ), falta de gestión de índice unificado )

Punto de dolor 4 : de 0 a 10 en punto todos los días es el período de tiempo con la mayor carga de clúster y, a medida que pasa el tiempo, la cantidad de tareas continúa aumentando y los recursos del clúster se vuelven cada vez más tensos, por lo que la estabilidad y la puntualidad de las tareas no se puede garantizar. ( la estabilidad de la tarea y la puntualidad son deficientes )

Punto crítico 5 : en todo el enlace de transferencia de datos, no se ha prestado atención a los problemas de calidad al nivel de la conciencia real. Los datos de origen están sucios, el enlace de procesamiento carece de monitoreo y no hay operación después del evento. En la actualidad, la calidad solo se mejora a través de la retroalimentación del nivel comercial ( datos de mala calidad )

Punto problemático 6 : el almacén de datos se basa en el principio de "orientado a los negocios, centrado en los datos", pero la conciencia es relativamente débil en todo el enlace de monitoreo de enlace de entrada al almacén, procesamiento del almacén y salida del almacén, como la estabilidad de la tarea. , la puntualidad, la calidad del modelo, la encarnación del valor y otros indicadores no se han medido de manera efectiva (el vínculo de seguimiento es débil y la encarnación del valor no es obvia )

Límite y profundidad de la gobernanza

Como se muestra en la figura anterior, el contenido del gobierno de datos incluye arquitectura de datos, diseño de modelos de datos, almacenamiento de datos, calidad de datos, gestión de metadatos, seguridad de datos, datos maestros y datos de referencia, gestión de contenido de archivos, operaciones de integración de datos, etc. Es decir, el contenido de la gobernanza cubre todo el ciclo de vida de la definición, producción, almacenamiento, procesamiento, uso y uso compartido de los datos.

El autor considera factores integrales, como las condiciones internas reales y la mano de obra, y se basa en los seis principales puntos débiles anteriores, es decir, para llevar a cabo un trabajo por fases principalmente en torno a las direcciones del ciclo de vida de los datos, la calidad de los datos, la gestión de metadatos, el modelo de datos, y evaluación de beneficios De acuerdo con la urgencia de los puntos débiles, se establecen objetivos escalonados para diferentes grados de gobernanza.

En combinación con la situación interna real, los puntos débiles 1, 4 y 6 son objetos de gobernanza prioritarios urgentes e importantes, y este artículo solo presenta estos tres puntos débiles;

Cabe señalar que el trabajo de gobernanza no se realiza por etapas, sino que es continuo durante mucho tiempo; la gobernanza no es rígida, sino que cambia y se ajusta constantemente de acuerdo con el entorno o las prioridades reales. Metas de gobernanza para cada etapa. La mejor manera es integrar el contenido de la gobernanza en el proceso estándar diario.

Ruta de ejecución de la gobernanza

La Guía del sistema de conocimiento de gestión de datos de DAMA define la gobernanza de datos de la siguiente manera: La gobernanza de datos (DG) es el ejercicio de poder y control en el proceso de gestión de activos de datos, incluida la planificación, el seguimiento y la implementación. Su propósito es garantizar que los datos se gestionen correctamente de acuerdo con las políticas de gestión de datos y las mejores prácticas, y la fuerza impulsora general de la gestión de datos es garantizar que las organizaciones puedan obtener valor de los datos.

Pautas

El autor cree que la gobernanza es en realidad un tipo de gestión de activos de datos, y los metadatos son indispensables en el proceso de gestión de activos de datos. Por lo tanto, antes de llevar a cabo el trabajo de gobernanza, se formularon las pautas de " operación jerárquica basada en metadatos e implementación paso a paso de los activos ".

calificación de activos

Con base en las realidades internas y trabajando de acuerdo con los lineamientos de gobierno. Dado que se ha realizado mucho trabajo internamente en la gestión de metadatos, es relativamente maduro. Sin embargo, es relativamente débil en términos de activos de datos, por lo que el autor se refiere al "Estándar de desarrollo de activos de datos de la plataforma MaxCompute de Alibaba" para realizar un inventario y clasificar los activos de datos internos, y al mismo tiempo adopta diferentes métodos operativos de acuerdo con diferentes niveles para lograr el objetivo final.

Al clasificar y definir los activos de datos, la gobernanza y las operaciones se pueden promover de manera ordenada. El objetivo final es garantizar la calidad, precisión, integridad, coherencia y puntualidad de los datos, en lugar de ser como una mosca sin cabeza dando tumbos. Los estándares para los niveles de activos no son fijos. Puede ponerse de acuerdo sobre la situación real de la propia empresa. Generalmente, se dividen según su importancia e impacto en el negocio (los siguientes niveles son desde el establecimiento de Ali MaxCompute): ● Destructivo naturaleza: una vez que los
errores de datos causarán grandes pérdidas de activos y enfrentarán una gran pérdida de ingresos. Márcalo como A1.
● Naturaleza global: los datos se usan directa o indirectamente para negocios a nivel empresarial, evaluación de efectos y toma de decisiones importantes. Márcalo como A2.
● Naturaleza parcial: los datos se utilizan directa o indirectamente para la operación y el informe de ciertas líneas de negocio, y si hay un problema, tendrá un cierto impacto en la línea de negocio o reducirá la eficiencia del trabajo. Marcado como A3.

● Naturaleza general: los datos se utilizan principalmente para el análisis diario de datos y el impacto causado por los problemas es mínimo. Marcado como A4.

● Naturaleza desconocida: el escenario de aplicación de los datos no se puede aclarar. Hacha etiquetada.

La importancia de estas propiedades decrece en orden, es decir, el grado de importancia es A1>A2>A3>A4>Ax. Si un dato aparece en varios escenarios de aplicación, se marcará según su grado más importante.

El marcado de las calificaciones de los activos debe aplicar todo el enlace desde el momento en que los datos ingresan al almacén al almacén, de modo que la calificación de un activo específico se pueda cambiar a través de la derivación inversa. Al calificar los activos de datos internos, el autor estableció cuatro niveles. La siguiente figura muestra la proporción de tareas interceptadas:

Nota: Al calificar los activos de datos, puede elegir diferentes estándares de medición para calificar de acuerdo con la situación real. El objetivo final es facilitar la gestión.

manejo de costos

Como se mencionó anteriormente, en función de la situación real y la urgencia del problema, el autor considera la puntualidad, la estabilidad, la acumulación de la base de conocimientos, el seguimiento completo de los enlaces y la reflexión de valores como la primera etapa de la gobernanza.

Entre ellos, la garantía de puntualidad y estabilidad pertenece a la categoría de gestión de costos.Creo que muchos amigos tienen una comprensión relativamente clara de los medios de gestión de costos.Más adelante, presentaré los medios adoptados por el autor sobre este contenido.

El monitoreo de enlace completo debe proporcionar un soporte básico confiable para el desarrollo del trabajo de gobierno de seguimiento y las operaciones diarias. Supervise cada enlace desde el almacenamiento de datos, el almacenamiento, la estandarización, la reutilización, la producción que consume mucho tiempo y la ocupación de recursos, el tipo y la frecuencia de exportación de datos, etc. Por supuesto, si desea monitorear cada enlace, los datos básicos no están disponibles Indispensable, como la programación Es necesario recopilar datos, registros de auditoría de la plataforma, datos de asignación de recursos, datos de configuración y muchos otros datos de apoyo para su análisis y supervisión. (La imagen ha sido desensibilizada y tiene baja resolución)

El trabajo de gobierno de datos a menudo es ingrato y requiere el fuerte apoyo de los líderes principales para continuar. Por lo tanto, el establecimiento y la mejora del sistema de indicadores de valor es la mejor encarnación de los resultados de gobierno.

A continuación, me gustaría presentar algunas medidas tomadas por el autor en términos de puntualidad y estabilidad (esto debe combinarse con el inventario y clasificación de activos anterior, a qué nivel dar prioridad y qué medidas tomar se puede decidir de acuerdo con su situación actual):

optimización de tareas

La optimización de tareas aquí incluye: optimización de archivos pequeños, optimización de particiones, asignación de recursos demasiado grande o demasiado pequeña y algunos otros problemas que pueden resolverse desde el nivel del código.

tarea sin conexión

Para algunas tareas inútiles, como tareas zombies, tareas inactivas y tareas más allá del ciclo de vida normal, se realiza una limpieza fuera de línea.

Lapso de cómputo/degradación de tareas

El clúster está bajo una operación de alta carga todos los días y noches, durante las cuales muchas tareas serán anormales debido a la preferencia de recursos. Para algunas tareas sin importancia, puede degradarse y los recursos se asignan a tareas de alta prioridad para garantizar la salida oportuna de las tareas de alta prioridad.

interruptor del motor

Actualmente, se utilizan internamente dos motores informáticos, hive on mr y spark. Aunque Spark tiene las características de la computación iterativa de memoria, en los primeros días, debido a la falta de estándares estrictos de aplicación de recursos, los miembros asignaban motores aleatoriamente para programar tareas. Con el paso del tiempo, más y más tareas dieron como resultado una disminución en la estabilidad de los componentes y salida de tarea lenta. Para resolver tales problemas, se han establecido estándares estrictos para la asignación de recursos y la selección del motor. El motor de chispa tiene prioridad para las tareas de alta prioridad para garantizar el rendimiento de las tareas de alta prioridad tanto como sea posible.

Optimización del modelo

Entre ellas, algunas tareas de alta prioridad pertenecen al tipo de modelo de tabla ancha, que no se pueden degradar o no tienen espacio para la optimización después de ser procesadas por otros medios En este momento, se seleccionará la optimización del modelo y la operación de división o se realizará la fusión si es necesario. Por supuesto, la gobernanza modelo es el contenido de la siguiente etapa y es un relleno a corto plazo en la etapa de gobernanza de costos.

Empuje de excepción

En los primeros días, el método de envío de alarmas para las tareas del almacén de datos era solo el correo electrónico, y más tarde se agregaron SMS y Qiwei. Sin embargo, debido a la alta complejidad de las tareas del almacén de datos y las ricas dimensiones de monitoreo (como reintentos, fallas, dependencias faltantes, monitoreo de calidad, administración de enumeración, etc.), a menudo aparece una gran cantidad de correos electrónicos de alarma. Con el paso del tiempo, los miembros se han paralizado gradualmente por este método de notificación y no pueden manejar tareas anormales de manera oportuna, y la gran cantidad de correos electrónicos de advertencia pueden enterrar fácilmente correos electrónicos importantes, lo que resulta en una lectura perdida.

Para resolver la parálisis causada por el impulso multicanal y garantizar la puntualidad de la resolución de problemas, se ha simplificado el método de impulso y se han adoptado múltiples direcciones, como apertura y transparencia y escalada de alarmas, para garantizar la resolución oportuna de problemas.

impulsar la gobernanza

En el proceso de gobierno, es necesario predicar y capacitar a los miembros del equipo de vez en cuando, para que cada miembro pueda comprender claramente el propósito y el significado de lo que está haciendo hasta el momento, para que cada miembro pueda seguir conscientemente los estándares normativos. cosas, mejorar la conciencia personal y cultivar el autocontrol. En algunos materiales se mencionan los criterios de medición del cuadro de mando para impulsar la gobernanza de cada responsable. Por supuesto, la primera etapa de gobierno en la que participó el autor no introdujo estándares de cuadro de mando. A largo plazo, los cuadros de mando son necesarios, especialmente cuando se trata de colaboración entre equipos, liquidación de costos y evaluación del desempeño.

Sistema de Evaluación de la Gobernanza

Objetivo

Durante la etapa preparatoria del trabajo de gobernanza, el equipo formuló cuatro principios de " estandarización de problemas, estrategia de procesos, gobernanza cuantificable y control operativo ". Con respecto a los estándares de medición y los valores especificados de los objetivos, puede formularlos usted mismo de acuerdo con la situación real. El autor no está aquí para dar más detalles. Permítanme compartir brevemente que el equipo del autor en ese momento formuló principalmente objetivos relevantes a partir de cuatro aspectos: beneficio de costo, beneficio de calidad, beneficio de eficiencia humana y beneficio de valor, como el ahorro de capacidad de almacenamiento, ahorro de mano de obra, reducción de la cantidad de problemas, cumplimiento de la puntualidad tasa, tasa de aprobación de calidad, etc.

Equilibrar los esfuerzos de gobernanza y el apoyo empresarial

Si desea llevar a cabo un trabajo de gobernanza, debe encontrar un ajuste con el negocio y obtener el apoyo del liderazgo, de lo contrario, se convertirá en un pez sin agua. Conseguir el apoyo de los líderes no significa que la gobernabilidad será exitosa, y no significa que el apoyo diario no se hará Aquí, es necesario lograr un equilibrio entre la asignación de personal y los arreglos de trabajo. esta oración, todos deben distinguir entre primaria y secundaria al hacer el trabajo de gobierno. Es ideal si se puede lograr la situación de la mano de obra en general ".

Resultados de la gobernanza

Con respecto a los resultados de la gobernanza, no es el enfoque de este artículo. Compartiré brevemente los logros obtenidos por el equipo después de aproximadamente una cuarta parte de arduo trabajo, especialmente el salto cualitativo en oportunidad y estabilidad. El enlace general ha aumentado la producción en 2 a las horas 3., la estabilidad ha aumentado en un 80% en comparación con el mismo período, y la puntualidad de la resolución de problemas se controla dentro del día 1. Al mismo tiempo, la base de conocimiento correspondiente también se precipita en el proceso de gobernanza. De acuerdo con el plan formulado, la próxima etapa girará en torno a la gobernanza del modelo y la gestión de indicadores. Una vez completada la segunda fase, también se compartirá con todos en forma de artículo.

Supongo que te gusta

Origin blog.csdn.net/qq_28680977/article/details/125035139
Recomendado
Clasificación