¿Cómo se pueden implementar rápidamente los “recién llegados” en la investigación y el desarrollo de datos?

Autor: Xiao Di (Mo Xu)

imagen

1. Prefacio

Este trimestre promueve principalmente el mes de la seguridad para construir y consolidar el chasis de estabilidad y organizó a los estudiantes del grupo para realizar investigaciones de estabilidad en los vínculos comerciales principales. Durante el proceso de búsqueda táctil, una voz te sigue preguntando: ¿todas las preguntas que descubriste fueron mediante la búsqueda táctil? ¿Has añadido todo el seguimiento? ¿Ha considerado todos los aspectos de su plan de transformación técnica? (Este sonido proviene principalmente del oído izquierdo, porque mi líder está sentado a mi izquierda, jajajaja) Así que hemos estado pensando y enfocándonos en cómo construir estabilidad sistemáticamente, con orientación metodológica y precipitación horizontal, y siguiendo cada negocio verticalmente. y el resultado de la línea, por lo que tenemos la imagen de abajo.

imagen

Esta imagen se divide principalmente en cuatro partes: en primer lugar, determinar el objetivo es el requisito previo para que todo comience; en segundo lugar, la parte metodológica se utiliza para precipitar métodos teóricos para la construcción de estabilidad y apoyar acciones posteriores; en tercer lugar, el enrutamiento de acciones, correspondiente a la metodología. En parte, espero que pueda Use una imagen para explicar claramente el camino de construcción; cuarto, obtenga los resultados y realice un seguimiento del progreso correspondiente a cada etapa para asegurarse de que pueda obtener los resultados finales. La parte de metodología responderá principalmente a las tres preguntas anteriores centrándose en cómo realizar clasificaciones.

2. Determinar objetivos

El primer principio de la investigación de estabilidad es suponer que los problemas pueden ocurrir en cualquier lugar, pero el impacto directo de este principio es que durante el proceso de investigación uno sentirá que "todo es un problema y puede que no lo sea". Por eso, lo primero que se debe hacer al hacer una encuesta es determinar los objetivos, solo con objetivos se puede tener enfoque y prioridad.

El objetivo general debería ser aproximadamente el mismo para todas las empresas: "sin fallas por encima de Px", "0 pérdida de capital", "recuperación de fallas 1-5-10" . Sin embargo, diferentes negocios y responsabilidades no relacionadas con la aplicación tendrán diferentes énfasis en los objetivos. Por ejemplo, el objetivo del negocio 2C se centra más en la estabilidad del servicio, el objetivo del negocio 2B se centra más en la coherencia de los datos y el objetivo comercial que implica el flujo de capital es más centrado en la pérdida de capital .

Por lo tanto, antes de discutir y solucionar problemas, debe determinar cuáles son los objetivos de la aplicación empresarial de la que es responsable. Puede discutir todos los escenarios de fallas con los compañeros de GOC, para que las prioridades de discusión y resolución de problemas sean más claras. Una vez que tengamos los objetivos clave, podremos distinguir claramente cuáles son los vínculos principales y también podremos priorizar los problemas identificados durante el proceso, lo que nos ayudará a implementar mejoras técnicas y de seguimiento de manera más rápida y efectiva en el futuro.

Tomemos como ejemplo nuestro propio negocio: nuestro equipo se llama Content Assets y es responsable de la gestión y extracción de valor de las decenas de miles de millones de activos de contenido de Youku. Los tres negocios principales son CRP para la gestión de derechos de autor de contenidos, CCC para la gestión de derechos de contenidos y una plataforma abierta para la introducción de contenidos. CRP gestiona el flujo de información y fondos de derechos de autor, por lo que el objetivo clave es evitar 0 pérdidas de capital; los datos de CCC afectarán si el lado final tiene derecho a reproducir, y la imposibilidad de reproducir el contenido puede generar quejas de los clientes, por lo que El objetivo clave es evitar quejas de los clientes causadas por datos inexactos. Queja: Los usuarios de la plataforma abierta son socios y se consideran semi-2C, por lo que el objetivo clave es hacer que el servicio esté disponible.

El primer enfoque de CRP es pérdida de capital cero , por lo que el vínculo principal puede causar escenarios de pérdida de capital; los problemas que pueden causar pérdidas de capital tienen alta prioridad; el enfoque del negocio 2B está en la precisión de los datos, por lo que los datos pueden ser inexactos. La prioridad de problemas es alto; otros problemas, como problemas de usabilidad, problemas de indisponibilidad de servicios que no afectan los dos primeros elementos, etc., pueden enumerarse como bajos.

3. Metodología

3.1 ¿Los problemas que ha resuelto son todos los problemas?

Este es el primer problema que enfrenta el pelotón estable, ante este problema debemos admitir que no existe una solución milagrosa que pueda matar a todos los monstruos y llevarse al "cisne negro". Pero debería haber una metodología para encontrar todos los peligros ocultos dentro de nuestro alcance cognitivo.

Cuando el equipo estaba solucionando problemas por primera vez, para resolver este problema, hice una lista larga basada en mi experiencia, con la esperanza de que pudiera ayudar a encontrar todos los problemas al solucionar el código. Hay dos problemas con este método: el primero es " si no hay prioridad, entonces todos los problemas son de baja prioridad ". Si asume que cada línea de código puede tener problemas, no sabrá por dónde empezar y la carga de trabajo aumentará. ser enorme; en segundo lugar, "solo hay resultados pero no proceso ". Cuando se revisa la lista de problemas, no hay forma de juzgar si se trata de problemas.

Se puede ver que el método anterior no es un método confiable y eficiente, necesitamos una metodología que pueda guiar el proceso y obtener resultados completos.

Enrutamiento de procesos

En todo el modelado y enrutamiento de procesos, necesitamos tres diagramas: diagrama de enlace central, diagrama de secuencia de procesos y diagrama de enrutamiento de problemas.

imagen



Diagrama de enlace central

El principio de la discusión es asumir que cada línea de código puede tener problemas, pero no podemos completar la burla y la solución de problemas al mismo tiempo, entonces, ¿qué códigos se deben discutir y limpiar con alta calidad? Esto significa que debemos deducirlo de los objetivos que determinamos inicialmente. El proceso donde pueden ocurrir problemas clave es el alcance de la resolución de problemas de alta calidad. Tomemos como ejemplo el CRP. El primer enfoque del CRP es 0 pérdidas de capital. El proceso de pago que involucra pérdidas de capital es el módulo que necesitamos para realizar inspecciones de alta calidad. El proceso real de aprobación y pago requiere inspecciones de alta calidad, y el pago La lista no se generará. Las pérdidas de capital pueden tener una prioridad más baja.

Con base en la derivación, encontramos el enlace principal y lo transformamos en el diagrama de enlaces principales del negocio. Los resultados clave del diagrama son: 1. N enlaces principales; 2. La entrada de llamada de cada enlace; 3. La mitad de proceso de enlace dependencias de software y consultas 4. Dependencias de escritura.

imagen

Diagrama de secuencia del proceso

Una vez que tenemos el diagrama de enlace principal, determinamos el alcance de la prioridad y luego clasificamos el código y producimos el diagrama de secuencia del proceso correspondiente al enlace principal. El diagrama de secuencia debe garantizar dos cosas: 1. N enlaces centrales deben corresponder al menos a N diagramas de secuencia de procesos para garantizar que no se pierdan; 2. En el diagrama de secuencia de procesos, céntrese en las llamadas RPC y las operaciones de entidades clave. No te lo pierdas.

imagen

mapa de enrutamiento problemático

Después de los dos primeros pasos de derivación, hemos encontrado los nodos clave en el enlace principal. A continuación, solo necesitamos dirigirnos a posibles problemas para una investigación enfocada según el tipo de puntos clave. Al llamar al punto de entrada, debe prestar atención a los problemas de tráfico, los problemas de verificación de parámetros centrales y los problemas de idempotencia; al escribir dependencias, debe prestar atención a los problemas de indisponibilidad, problemas de idempotencia, problemas de coherencia de datos, etc.; durante el proceso , debe prestar atención a problemas de transacciones, problemas de lógica de concurrencia, problemas de reuniones, problemas con el cálculo del monto de las pérdidas de capital, etc.



imagen



Con estas tres imágenes, podemos analizar y juzgar todos los problemas en cada línea de código y reducirlos a los tipos de problemas correspondientes a los nodos clave en el proceso central; y en el proceso, tenemos la identificación de los enlaces centrales. y nodos clave. La derivación puede garantizar que no habrá omisiones en el cálculo. Al revisar dentro del grupo, las tres imágenes de arriba también pueden proporcionar una base para juzgar si está "completo".

3.2 ¿Has agregado todas las funciones de monitoreo?

Después de resolver el problema de las clasificaciones incompletas, la segunda pregunta que enfrentamos es: ¿las hemos agregado todas? Como principal medio para descubrir problemas, el seguimiento es muy importante en los trabajos diarios de operación y mantenimiento. Si se puede descubrir lo antes posible, el sangrado se puede detener a tiempo. Los métodos de monitoreo comúnmente utilizados incluyen la conciliación de datos y el monitoreo de registros. La conciliación de datos se usa a menudo para monitorear la consistencia de los datos del flujo de información y el flujo de capital, y el monitoreo de registros se usa a menudo para monitorear las anomalías del proceso del sistema. Entonces, ¿cómo garantizamos que nuestro seguimiento sea exhaustivo y eficaz?

Enrutamiento dependiente de los datos

La conciliación de datos consiste en descubrir inconsistencias en los datos en el proceso de información y flujo de capital. Sin embargo, los campos de los documentos comerciales varían de docenas a cientos. ¿Qué campos deben monitorearse y cómo deben establecerse los puntos de activación para la conciliación ? Todavía hay tres diagramas para la derivación: diagrama de casos de uso de escenario, diagrama de dependencia del modelo de datos y lista de máquinas de estado.

imagen

Diagrama de casos de uso de escenario

En primer lugar, debemos deducir del objetivo, encontrar los escenarios donde pueden ocurrir todos los problemas clave y dibujar los casos de uso del escenario en el mapa mental. El objetivo es cubrir todos los escenarios de problemas, así como las entidades comerciales y los campos involucrados en los escenarios de problemas.

Tomando como ejemplo nuestro propio escenario comercial, el pago de activos de derechos de autor es la salida de la cadena de capital introducida por el contenido de Youku, y es fácil provocar escenarios de pérdida de capital. Hay tres escenarios principales de pérdida de activos: monto de pago real incorrecto, cálculo incorrecto del monto de pago y pago repetido.

El cálculo del importe del pago es incorrecto:

1. Al enviar la orden de pago del CRP, asegúrese de que el monto del pago no exceda el monto de la garantía del contrato.

2 、 ......

El monto del pago real es incorrecto: .....

imagen

A través del peinado anterior, puedes obtener la segunda imagen.

Gráfico de dependencia del modelo de datos

Siguiendo con el ejemplo anterior, las dependencias y los campos clave de todas las entidades comerciales involucradas se pueden deducir de las descripciones de todos los escenarios en la figura anterior . Estos son los campos centrales que necesitamos para realizar la conciliación de datos. Una vez que los campos centrales estén establecidos, necesitamos resolver el segundo problema: ¿ cuál debería ser el evento que desencadene la reconciliación? En la mayoría de los casos, solo agregaremos monitoreo en la dirección positiva de acuerdo con el proceso comercial, como usar la presentación de documentos de pago CRP como un evento para desencadenar la conciliación del monto del documento y el monto del contrato.

Esto cubrirá la mayoría de los escenarios de problemas, pero puede ignorar algunos problemas importantes pero de baja frecuencia. Por ejemplo, se ha enviado una orden de pago CRP para activar una conciliación de datos positiva, pero durante el proceso de flujo de capital, el monto del contrato se vuelve más pequeño y menor que el monto del pago. Si no se logra la notificación e intervención oportunas, se producirán problemas de pérdida de capital.

imagen

Por lo tanto, al agregar monitoreo, además de la conciliación directa de datos basada en las tendencias comerciales, también se debe considerar la conciliación inversa de datos y se debe llevar a cabo una construcción de monitoreo prioritaria en función de la gravedad de los posibles problemas.

Lista de máquinas de estado

Dado que existe una dependencia del flujo de estado entre el documento de pago y el comprobante de pago (factura), y el flujo de estado de los dos documentos en sí también tiene reglas de punto de control, durante la operación real creamos una lista de máquinas de estado y la auxiliar La conciliación de datos fue precisa y fluida. Falta el aterrizaje. Este diagrama no es necesario, pero si el negocio de monetización también tiene dependencias complejas en la transferencia del estado de los documentos comerciales, se recomienda dibujar este diagrama para ayudar a agregar el monitoreo.

imagen

Monitoreo unificado a nivel de sistema

Además del monitoreo de la conciliación de datos, otro medio importante es el monitoreo de registros. Al agregar la supervisión de registros, normalmente se enfrenta a una situación en la que es difícil localizar el problema incluso después de agregar la supervisión. Por lo tanto, necesitamos un método que no solo pueda detectar la aparición de problemas, sino también localizar dónde ocurre el problema, cuál es el problema e incluso qué máquina tiene el problema en una aplicación de múltiples máquinas. Aquí aprendimos de la metodología de un gran jefe y configuramos un sistema de monitoreo unificado desde el conjunto hasta los detalles, desde la percepción hasta el diagnóstico, que puede resolver muy bien los problemas antes mencionados. ↓↓↓↓↓

imagen

3.3 ¿Ha considerado todos los aspectos de su plan de transformación técnica?

Se han identificado los problemas en el código y algunos requieren transformación técnica ¿Ha considerado todas las soluciones técnicas para los diferentes problemas? Después de esta pregunta, compilé un diagrama de ruta de acción que traza todo el vínculo entre el modelado y la planificación de la estabilidad (Modificación y planificación -> Monitoreo y suplementario -> Transformación técnica -> Plan), con la esperanza de que permita a los miembros del equipo tener un sistema en el proceso de construcción de estabilidad orientación cultural.

imagen

Las soluciones comunes se dividen principalmente en varias categorías, incluidas soluciones de coherencia de datos, soluciones idempotentes, soluciones de prevención de pérdida de activos y soluciones de transformación SQL lenta. Las transformaciones SQL lentas son todas habilidades básicas y no se describirán en detalle.

4. Obtenga resultados

No hace falta decir que esta parte es el seguimiento de los resultados del proceso correspondientes a cada etapa del enrutamiento de la Acción y el logro del resultado final. La forma de presentación no es importante, la clave es hacer un seguimiento para asegurar que se logre el resultado final. Hasta ahora, nuestro equipo ha resuelto un total de 13 problemas de alta calidad en los enlaces principales, y todos los planes de transformación técnica están siendo revisados ​​y programados para su resolución; hemos cooperado con los estudiantes de prueba para agregar 42 nuevos elementos de monitoreo, 19 de que fueron resueltos.; Sin errores de nivel P, 0 pérdidas de capital.

imagen

5. Finalmente

La estabilidad del sistema es la base para garantizar que obtengamos todo el valor comercial y su importancia es evidente. En realidad, la construcción de estabilidad es una tarea continua. En el último año fiscal se traspasaron muchas empresas nuevas, por lo que realizamos una encuesta sorpresa. El trabajo es grande y complejo y requiere la total cooperación de los equipos de prueba, producto y desarrollo. Espero que algunas de las metodologías resumidas durante el proceso sean útiles para todos.

Supongo que te gusta

Origin blog.csdn.net/AlibabaTech1024/article/details/133077631
Recomendado
Clasificación