Servicio de datos: una herramienta precisa para garantizar la seguridad de los datos y mejorar el valor de los datos

04-08 Se explican los metadatos y cinco escenarios de aplicación basados ​​en ellos: descubrimiento de datos (mapa de datos), gestión de índices, diseño de modelos, calidad de datos y optimización de costos. Esta parte del contenido corresponde a la metodología OneData en el centro de datos. Después de aprender esta parte, ha entendido cómo se implementa la metodología OneData dentro de la empresa.

Otra metodología central en el centro de datos, la realización de OneService: servicio de datos.

La servitización es más común en los sistemas comerciales y los sistemas comerciales se simplifican, que es la única forma de realizar la división comercial (especialmente el concepto de microservicios). ¿Qué significa servicio en el centro de datos? ¿Qué problema resuelve el servicio de datos?

Orientado a servicios: diferentes sistemas interactúan a través de servicios, y los servicios suelen existir en forma de interfaces API.

Para averiguar qué problemas resuelven los servicios de datos, primero debe conocer los puntos débiles que existen en la construcción diaria de datos sin servicios de datos.

1 Hay muchos métodos de acceso a datos, pero la eficiencia de acceso es baja

Los datos procesados ​​en el centro de datos generalmente se almacenan en HDFS en forma de tablas de Hive. Si desea mostrar directamente a través del informe de datos o el front-end del producto de datos, para garantizar la velocidad de consulta, los datos se importarán a un almacenamiento intermedio:

  • MySQL, Oracle y otras bases de datos con una pequeña cantidad de datos son fáciles de implementar y mantener, con una pequeña cantidad de datos y un gran rendimiento de consultas. Si el volumen de datos es inferior a 500 W de registros, se recomienda utilizar almacenamiento intermedio DB
  • Disponible GreenPlum que involucra grandes volúmenes de datos y consultas multidimensionales, OLAP con datos masivos tiene un rendimiento excelente. Si la cantidad de datos supera los 500W registros, es necesario filtrar y consultar con múltiples condiciones
  • HBase se puede usar para consultas de una sola tecla que involucran grandes cantidades de datos. Bajo la gran cantidad de datos, HBase tiene un buen rendimiento de lectura y escritura. Si el registro supera los 500 W, consulta la escena V de acuerdo con K. Si necesita usar el índice secundario, dado que HBase no es compatible de forma nativa con el índice secundario, se puede introducir ES para crear la relación de asignación entre el índice secundario y RowKey (Clave en HBase) según ES. Al consultar, primero busque RowKey en ES de acuerdo con el índice secundario, y luego obtenga el valor de Value en HBase de acuerdo con RowKey.

Debido a que los diferentes almacenamientos intermedios involucran diferentes API de acceso, para el desarrollo de aplicaciones de datos, cada aplicación de datos debe desarrollar los códigos correspondientes de acuerdo con diferentes almacenamientos intermedios. Si se involucran múltiples almacenamientos intermedios, se deben desarrollar múltiples conjuntos de códigos, la eficiencia de acceso a los datos es muy baja.

El servicio de datos protege diferentes almacenamientos intermedios para el desarrollo de datos, y el desarrollo de aplicaciones utiliza una interfaz API unificada para acceder a los datos, lo que mejora en gran medida la eficiencia de investigación y desarrollo de las aplicaciones de datos.

La baja eficiencia del acceso a los datos no solo está relacionada con la conexión con diferentes almacenamientos intermedios, sino también porque los datos y las interfaces no se pueden reutilizar.

2 No hay forma de reutilizar datos e interfaces

Diagrama esquemático de datos e interfaces que no se pueden reutilizar

Al desarrollar el "análisis comercial de aplicaciones de datos", el desarrollo de datos procesará la tabla c en función de la tabla a, y luego el desarrollo de aplicaciones de datos importará los datos de a y b a la "base de datos de análisis comercial de aplicaciones de datos db1", y luego desarrollará el análisis comercial servicios El código final proporciona servicios a la web a través de la interfaz 1.

Al recibir la tarea de desarrollar "Aplicación de datos - Análisis de ganancias brutas", también se deben usar los datos de la tabla b. Aunque los datos b ya existen en db1, db1 es la base de datos "Aplicación de datos - Análisis comercial" y no se puede compartir con "Aplicación de Datos - Análisis de Utilidad Bruta". .

La interfaz del lado del servicio del análisis comercial no se puede usar directamente para el análisis de ganancias brutas, porque la interfaz pertenece a la aplicación de análisis comercial y ha sido altamente personalizada de acuerdo con los requisitos de la aplicación.

Incluso si los datos se repiten, no se pueden reutilizar entre diferentes aplicaciones de datos, en el almacenamiento intermedio y en las interfaces del servidor. Este tipo de desarrollo de chimenea conduce a una baja eficiencia de la investigación y el desarrollo de aplicaciones de datos.

Con los servicios de datos, lo que está expuesto en el centro de datos ya no son datos, sino interfaces. Las interfaces ya no pertenecen a una determinada aplicación de datos, sino a un servicio de datos unificado. La interfaz se puede compartir entre diferentes aplicaciones de datos.Al mismo tiempo, debido a que el servicio de datos tiene la función de limitación actual, es posible compartir los datos detrás de la interfaz y resolver el problema de la influencia mutua de los datos compartidos de diferentes aplicaciones.

Después de que la aplicación de datos entra en línea, entra en la etapa de operación y mantenimiento, si no hay servicio de datos en esta etapa, ¿qué sucederá?

3 No sé qué aplicaciones acceden a los datos

Diagrama esquemático de la recuperación de fallas

Zhang Haoliang es un desarrollador de datos. Una mañana, recibió una llamada de la policía: había una gran cantidad de tareas anormales (correspondientes a las tareas de salida en la tabla roja de arriba). Localice y confirme la base de datos de origen del sistema empresarial de origen del problema. Debido a un cambio en la estructura de la tabla de la base de datos, la limpieza de los datos originales en el centro de datos es anómala, lo que afecta a varias tareas posteriores.

Frente a usted hay un montón de tareas que deben reanudarse y volver a ejecutarse. Los recursos de la cola son limitados, ¿cuál debería recuperarse primero? ¿Qué tarea afectará en última instancia al informe que el jefe verá al día siguiente?

Aunque la relación de datos establece la relación de vínculo entre tablas, al final de la tabla no sabemos qué aplicaciones acceden a la tabla, por lo que se rompe la relación de vínculo aplicada a la tabla. Cuando una tarea es anormal, no podemos determinar rápidamente qué aplicaciones de datos se ven afectadas por la tarea, ni podemos determinar la prioridad de recuperación en función del alcance del impacto. Al final, los informes importantes no se restauran, pero los informes sin importancia se restauran primero. .

En la gestión de costos, no existe una relación de vínculo entre las aplicaciones y los datos, y los datos no se atreven a estar fuera de línea.

El servicio de datos abre el enlace de acceso entre los datos y las aplicaciones, y establece una relación de sangre de datos de enlace completo desde la aplicación de datos hasta los datos del centro de datos, lo que significa que hemos obtenido un mapa en el laberinto. puede seguirlo De acuerdo con el mapa, averigüe qué aplicaciones se ven afectadas por esta falla, para acelerar la recuperación de aplicaciones importantes. Del mismo modo, podemos desconectar de forma segura cualquier mesa en Taichung.

Además de no saber para qué aplicaciones posteriores se utilizan los datos, durante la fase de operación y mantenimiento, a menudo se enfrenta la reconstrucción frecuente de las tablas de datos, lo que puede ser la peor pesadilla del desarrollo de aplicaciones de datos.

4 El cambio del campo del departamento de datos lleva al cambio de la aplicación

Los cambios de campo del modelo subyacente en el centro de datos son relativamente frecuentes, porque el propio modelo de la capa de resumen también se optimiza según la demanda.

"Aplicación de datos-Análisis empresarial" utiliza el campo c de la tabla ads_mamager_1d en el centro de datos. Si reconstruimos esta tabla, el campo de acceso debe reemplazarse con el campo e. En este momento, la aplicación de datos debe modificar el código . Es muy poco razonable que la aplicación deba reiniciarse debido al cambio de datos en el centro de datos. No solo aumentará la carga de trabajo adicional del desarrollo de la aplicación, sino que también ralentizará el progreso del cambio de datos.

Con el servicio de datos, la aplicación de datos y los datos del extremo medio se desacoplarán. Si la estructura de la tabla de datos del extremo medio cambia, solo se debe modificar la relación de mapeo entre los parámetros de la interfaz y los campos de datos en el servicio de datos. . No es necesario modificar el código y volver a iniciar la aplicación de datos.

5 resumen

Problemas típicos encontrados en el proceso de acceso a datos y operación y mantenimiento, y un breve análisis de por qué los servicios de datos pueden ayudarnos a resolver estos problemas. Estos problemas harán que el uso de datos intermedios sea ineficiente por parte de las aplicaciones de datos y también generarán problemas en el mantenimiento de datos intermedios.

A continuación, hablemos de las funciones de los servicios de datos, si planea diseñar un servicio de datos o seleccionar un producto para un servicio de datos, debe prestar atención. Finalmente, se le proporcionará un plan de implementación del servicio de datos que le indicará el diseño clave de la implementación del servicio de datos.

6 preguntas frecuentes

El servicio de datos resuelve el problema de la seguridad de los datos, ¿tiene sentido?

Sí, Data Services emplea una serie de medidas de seguridad para garantizar la seguridad de sus datos. Por ejemplo, un servicio de datos puede usar el cifrado para proteger los datos y garantizar que solo los usuarios autorizados puedan acceder a ellos. Además, los servicios de datos pueden implementar medidas de autenticación y control de acceso para garantizar que solo los usuarios autorizados puedan acceder a los datos. Por lo tanto, el servicio de datos puede resolver eficazmente el problema de seguridad de los datos.

Supongo que te gusta

Origin blog.csdn.net/qq_33589510/article/details/131969609
Recomendado
Clasificación