Permítanme hablar sobre algunos de mis pensamientos sobre la construcción de almacenes de datos.

Este artículo ha sido actualizado a Yuque, si respondes "Yuque" de fondo, podrás obtener toda la información que se actualiza continuamente a lo largo de la carrera de Attack Bar Big Data.

En la actualidad, la construcción de almacenes de datos en la mayoría de las industrias se lleva a cabo principalmente utilizando la ideología rectora de Kimball. En la etapa inicial de desarrollo, para respaldar rápidamente el negocio y esperar que los líderes puedan sentir el valor de la existencia de almacenes de datos y traer así mayor inversión y apoyo La mayor parte del proceso de construcción se basa en el desarrollo de chimeneas. Sin embargo, con el rápido desarrollo de los negocios, este modelo de desarrollo revelará varias deficiencias, como limitaciones de recursos, calibre de datos inconsistente, incapacidad para encontrar rápidamente los datos deseados, desarrollo no estándar y procesos poco sólidos. Cualquier problema aquí requiere mucho tiempo y mano de obra para resolver
  
, y el efecto y el valor aportado por la resolución de estos problemas no afectará directamente a la alta dirección. Puede haber muchos cambios en el proceso de resolución de estos problemas, como la renuncia de los miembros. Los departamentos desaparecen e incluso las empresas quiebran. ¿Cómo salimos de esta vergonzosa situación? Cabe señalar que este capítulo no trata sobre los detalles de construcción (cómo formular especificaciones, cómo aplicar capas, cómo modelar, estos detalles se explicarán por separado más adelante), sino para discutir esta idea de romper la situación.
  
En "Nanpi County Chronicles · Fengtuzhixia · Ballads", se menciona que la idea de "los soldados y los caballos no se mueven, la comida y el pasto van primero" ha circulado ampliamente, y el editor cree que también es aplicable a la construcción de almacenes de datos. Ya sea que esté construyendo un almacén de datos de cero a 1, o perfeccionando un almacén de datos de 1 a 2, debe tener un pensamiento sistemático antes de construir o durante el proceso, para que el control de toda la dirección sea más claro y al mismo tiempo. Habrá un gran crecimiento para cada miembro. Por ejemplo: piense desde la perspectiva del flujo de datos (por supuesto, el pensamiento aquí también cubre la especificación, la estratificación, el modelado y la gobernanza mencionados anteriormente)
   1. ¿Cuál es el método de almacenamiento de datos? ¿Cómo controlarlo? ¿Cómo medir el grado de estandarización del almacenamiento? ¿Cómo garantizar la calidad?
   2. ¿Qué método se utiliza para la integración de datos en el almacén? ¿Está estandarizado el proceso? ¿Cómo garantizar la calidad? ¿Cómo medir el efecto de integración? ¿Cómo controlar el costo?
   3. ¿Cómo controlar el flujo de salida? ¿La experiencia de datos es fluida? ¿Cómo reflejar el valor de la aplicación?
  Durante el proceso de construcción, esta serie de problemas deben ser considerados en su lugar, y luego se debe invertir una cierta cantidad de mano de obra en la mejora y optimización continuas, esta es la forma de un desarrollo saludable. Los zapatos de los niños que se dedican a los almacenes de datos deben saber que la construcción de los almacenes de datos no se puede completar de la noche a la mañana. De hecho, podemos considerar los almacenes de datos como el "producto" del personal de datos. Los datos son el alma del producto, el modelo es el forma del producto, y el personal de datos está a cargo del producto. Entonces podemos adoptar estrategias operativas y medios para construir un almacén de datos. A continuación, discuta en torno a los siguientes aspectos (aquí se adopta la idea de indicadores OSM):
   a) ¿Cómo definir el alcance de la operación?
   b) ¿Cómo se formulan los objetivos de la operación?
   c) ¿Cómo implementar la estrategia de operación?
   d.¿Cómo evaluar los resultados de la implementación?

Alcance operativo

La cantidad de datos en la empresa es muy grande y los tipos son relativamente ricos, pero no todos los datos son mantenidos por el personal de datos, y todos los datos no se pueden integrar sin límites, lo que aumentará los costos operativos. . Entonces, lo primero que tenemos que hacer es confirmar los derechos de datos , lo que significa que el trabajo de operación de datos debe entregarse a los productores. Ejemplo: Los datos generados por el sistema empresarial deben ser mantenidos por el lado del sistema. Para el personal de datos, todo el enlace de datos de circuito cerrado desde el almacenamiento de datos, el procesamiento de datos y la aplicación de datos está dentro del alcance de las operaciones. Es decir, desde que los datos ingresan al almacén hasta que salen del mismo, los datos secundarios generados por cada proceso deben ser operados y mantenidos por personal de datos.

objetivos operativos

Para el personal de datos, el mayor sentido de logro o sentido de misión es poder "revitalizar" los datos de la empresa y dejar que los datos realmente muestren su valor, guíen el negocio, innoven el negocio y aporten beneficios positivos a la empresa. empresa. Para experimentar este sentido de logro tanto como sea posible, lo discutimos desde dos niveles:   1. Nivel comercial : en la era DT, creo que todos ya han sentido la conveniencia que brinda la aplicación de big data. En la industria de los datos, todos conocen la importancia de los datos y la necesidad de empoderar a las empresas a través de los datos, pero no está claro si el empoderamiento tendrá éxito al final. Aunque los datos actúan sobre el negocio, su valor no se puede medir directamente con unos pocos indicadores. Por ejemplo: el lado de la demanda del negocio propone algunos indicadores y estadísticas con la esperanza de mejorar la eficiencia operativa. Entonces este valor artificial a veces es No hay forma de medida (y a veces no es necesario reevaluar y desarrollar un conjunto de indicadores para medir el valor de los indicadores debido al desarrollo de algunos indicadores, por lo que todo el costo y el ciclo de desarrollo se extenderá en gran medida. Para este valor no medible, entonces ¿Qué debemos considerar es cómo lograr la automatización y la inteligencia, y satisfacer las necesidades comerciales al reducir los costos de desarrollo). Por lo tanto, para los desarrolladores de datos, lo que podemos hacer es completo, rápido y preciso. Eso es lograr una cobertura completa de los negocios, un soporte rápido de los negocios y un juicio preciso de los negocios .   2. Nivel de usuario : en el trabajo diario, los desarrolladores de datos generalmente no afectan directamente al negocio, sino que colaboran con el personal comercial de primera línea, los analistas de datos y los gerentes de productos, pero los datos están orientados a toda la empresa, es decir como siempre que se utilicen datos, están más o menos relacionados con los trabajadores de datos. De hecho, para los desarrolladores de datos, los datos son un "producto" que todos mantienen juntos. Desde la perspectiva del producto, cualquiera que use datos es nuestro usuario. Esperamos que durante todo el viaje de la experiencia de datos, los usuarios puedan encontrar datos sin preocuparse por ellos, encontrarlos cómodamente y usarlos con confianza . Este es nuestro objetivo de diseño de productos.

estrategia de operación

Pautas

Antes de formular medios estratégicos concretos, solemos utilizar una serie de principios como nuestra política de actuación para evitar desvíos en el proceso de implementación. Por supuesto, todos tienen una comprensión diferente de estos principios básicos, y también se pueden adoptar algunas políticas que se ajustan al statu quo. El editor cree que en todo el proceso de operación, se debe adoptar la clasificación de activos combinada con la asistencia bidireccional basada en metadatos .   Para la clasificación de activos , necesitamos entender qué es un activo. ¿Cómo calificar? Después de delinear el alcance de las operaciones y determinar la propiedad de los datos, debemos clasificar cada tipo de datos como activos y clasificarlos en niveles (por ejemplo, se pueden calificar según el impacto comercial, la frecuencia de uso, etc.). Después de dividir todos los activos de datos en grados, tenemos una distinción para la dirección de operación subsiguiente, y las estrategias de operación adoptadas por cada grado también son diferentes.
  También hay muchos artículos que explican el concepto de metadatos en detalle. El editor anterior también clasificó 25 soluciones de gestión de metadatos (puede echar un vistazo a aquellos que estén interesados ​​en zapatos para niños). Ahora que se han calificado los activos, ¿por qué deberíamos combinar metadatos ¿Paño de lana? De hecho, es para medir rápidamente el efecto de nuestro proceso de operación y, al mismo tiempo, también es para permitir que la alta gerencia vea algo de esperanza y aumente la confianza y la determinación. Si la adopción de una determinada estrategia en el proceso de operación no tiene efecto o trae un impacto negativo, es necesario ajustar la estrategia a tiempo para evitar caer en la oscuridad.

Nivel empresarial

Después de ordenar la dirección general y formular los principios de referencia, debemos adoptar diferentes estrategias para diferentes objetivos. A continuación discutiremos

todo cubierto

La cobertura integral de negocios es en realidad una forma de evaluar la calidad de la construcción del almacén de datos. Por supuesto, no significa necesariamente que se deban incluir todos los negocios (esto depende de las características de cada empresa), al menos el core business de la empresa, vida La base debe estar disponible y luego iterar un poco en el almacén de datos a medida que el negocio se expande. El editor piensa que es difícil formular indicadores para evaluar la integridad empresarial, generalmente se juzga por el dominio temático del almacén de datos de construcción, pero aquí se vuelve a un problema normativo (es posible que algunos modelos carezcan de dominios temáticos durante el proceso de construcción. logo). Esta es la razón por la que la matriz debe hacerse en la etapa inicial del almacén de datos y por la que es necesario formular especificaciones. ¡Estas preparaciones preliminares también son para facilitar la medición posterior del valor! En términos generales, debemos centrarnos en la integridad de los activos por encima del segundo nivel, y la mayoría de los activos en el tercer nivel y por debajo se completan en función del segundo nivel y por encima, que es similar a nuestro concepto jerárquico.

soporte rápido

Para las empresas de Internet, los cambios comerciales son rápidos, lo que podemos hacer es adaptarnos a los cambios, pero debemos mantenernos al día con los cambios. Esto también pone a prueba el nivel de construcción de modelos del equipo de almacenamiento de datos. Si desea expandir un nuevo negocio y desea analizar datos rápidamente, pero necesita una semana para reconstruir el modelo y necesita resumir, entonces lo siento, el equipo de datos es solo una pantalla. Por lo tanto, para el equipo de datos, debe dar soporte rápido al negocio, por lo que en los últimos años se ha mencionado la plataforma intermedia, para mejorar la reutilización, engrosar la capa pública y lograr un desarrollo ágil , que también es un segundo nivel. o por encima del activo foco de atención. Cuando llega el momento de prepararte para la batalla, tu armamento debe estar bien equipado. El editor cree que puede evaluar de manera integral si ha logrado un soporte rápido a través de indicadores de ingeniería y la escalabilidad de sus modelos. Por ejemplo, si sus indicadores de costos generales del período de construcción, desde la recepción de los requisitos hasta la entrega, han mejorado, si sus modelos se cambian con frecuencia y si el alcance de los cambios es amplio Considere estos aspectos.

Juicio preciso

Todos los zapatos para niños que se dedican a la industria de datos tienen una conciencia importante. Hablando en serio, es la ética profesional , que es el tema de la seguridad de los datos. Es el objetivo moral de cada profesional garantizar que los activos corporativos no se pierdan. Por supuesto, también se debe mejorar la conciencia de calidad, trate de asegurarse de que los datos proporcionados por usted sean precisos, ¿por qué dice que haga su mejor esfuerzo? La calidad es algo que no lo puede lograr una sola persona, hay muchos eslabones involucrados y el costo de comunicación también es alto, si promueves este tema, puede que no esté alineado con los objetivos de otros equipos. Por eso es necesario que toda la organización desarrolle un proceso de sistema estándar para impulsarlo. ¡pero! Esto no significa que no lo haremos. Por lo menos, necesitamos construir un sistema de indicadores relevante para definir reglas por adelantado y monitorear durante el evento, para que podamos revertir la operación basada en el informe después del evento . y también asegurarnos de que desde el almacén todo el proceso después de eso haya sido estrictamente controlado, para que el lado comercial pueda tener un sentido de confianza en nosotros y aumentar la dependencia. El problema de la precisión es que no distingue entre clasificaciones de activos, es decir, cada enlace debe estar garantizado ¡Este es el resultado final!

nivel de usuario

no te molestes en mirar

Cualquiera que use datos es un usuario de nuestros productos. Queremos que los usuarios encuentren rápidamente las funciones que desean en el producto. Esta conveniente experiencia aumentará la permanencia del usuario. Aplicado al nivel de datos, cuando ves una tabla o un campo, ¿puedes entender inmediatamente lo que representa? Hay más cosas que hacer aquí, incluido el problema de los metadatos mencionado anteriormente. Esta conveniencia se puede hacer en función de los metadatos, pero también implica un proceso de especificación estándar, porque los metadatos comerciales después de todo, deben complementarse manualmente y técnicamente. las herramientas son sólo un medio de ayudar a la verificación. Hay muchas maneras de considerar esta comodidad. Si su entorno es relativamente completo y único, puede recopilar el comportamiento del usuario para su análisis, como la calificación de estrellas, el número de interacciones, el número de quejas, el número de favoritos, el número de clics, etc. . Si el entorno y las instalaciones en las que se encuentra son relativamente simples, puede medirlo contando artificialmente la cantidad de comunicaciones o comentarios de evaluación de los usuarios. Esta conveniente experiencia generalmente se enfoca en activos por encima del segundo nivel.

comprobar la comodidad

El rendimiento en tiempo real es el objetivo que persigue actualmente toda la industria. Necesitamos hacer que los datos sean lo más rápido posible, para que los usuarios puedan experimentar datos fluidos sin ningún retraso. De hecho, es necesario considerar el tema del costo de desempeño, en términos generales, los activos por encima del segundo nivel deben garantizar el desempeño y los activos por debajo del tercer nivel deben lograr el control de costos, este es el equilibrio entre desempeño y costo. Por supuesto, para considerar este objetivo, se trata de si el resultado es oportuno, si es estable, el consumo de recursos, etc.

no te preocupes

Permita que los usuarios tengan un sentido completo de confianza al usar los datos, al igual que la confianza entre las personas . Si puede asegurarse de que los datos que entrega no harán dudar a la parte que los acepta, entonces es increíble. El problema de la calidad es el mismo que el juicio preciso en el nivel comercial mencionado anteriormente, y cada nivel de activos debe hacer esto.

evaluación de objetivos

  En el proceso de estrategia discutido anteriormente, también involucra los indicadores de medición de cada objetivo. Aquí hay un resumen. Si hay algo mal o es necesario agregar algo, puede corregirme.

Supongo que te gusta

Origin blog.csdn.net/qq_28680977/article/details/121894350
Recomendado
Clasificación