Gestión y control de tráfico refinados del Departamento de Amoy para el valor comercial

Marconi (Marconi) soluciones de control de flujo fino continuación Noah (Noah) fluídica adaptativa madura amplia experiencia en estabilidad en un sistema de alta disponibilidad de recursos para el sistema de protección de sobrecarga, además del control fino de la evolución del tráfico. A través de métodos refinados de control de tráfico, se garantizan las solicitudes de servicios de alto valor y se mejora el valor comercial de la prestación de servicios.

Este artículo presentará tres aspectos: problemas de fondo, efectos de combate reales, ideas de diseño y soluciones. Marconi garantizará las plataformas comerciales centrales del Departamento de Tao (Taobao, Tmall, etc.) (como página de inicio, lugar, transmisión en vivo, etc.) en 2020 Double 11 Interaction, My Taobao, etc.), los niveles de arquitectura múltiple (desde puertas de enlace de acceso hasta clústeres / contenedores de aplicaciones comerciales) controlan el tráfico comercial y mejoran los resultados comerciales del servicio, brindando a los usuarios una experiencia fluida; mejorando Taobao (y Alibaba Group más La estabilidad del chasis de la BU) se ha convertido en la capacidad central de la garantía de estabilidad de las aplicaciones, lo que ha promovido el progreso de la industria en la garantía de alta disponibilidad / estabilidad de los sistemas comerciales en línea distribuidos a gran escala. ¡Proporcione garantía para el récord de Double 11 de este año!

antecedentes


El volumen total de transacciones alcanzó los 498.200 millones de yuanes y la creación de pedidos máximos fue de 583.000 transacciones por segundo. ¡Este año, Double 11 estableció un nuevo récord! Esto es inseparable del departamento técnico del Departamento Amoy de Alibaba.Los técnicos Amoy que constantemente innovan y superan problemas difíciles en nuevos escenarios y nuevas estructuras no pueden prescindir de soluciones de control de tráfico que aseguren la innovación empresarial.

Con la evolución del sistema empresarial Amoy, se ha depositado una gran cantidad de plataformas empresariales con capacidades públicas (es decir, aplicaciones basadas en plataforma), como retransmisiones en directo, derechos e intereses, grandes espacios de promoción, interacción, mensajes de chat, guías de compra (contratación, selección e inversión), páginas de inicio, etc., soporte. Los numerosos escenarios comerciales o fuentes de tráfico (como diferentes aplicaciones, lanzamientos) en él forman una plataforma horizontal + modelo de arquitectura comercial vertical. Cada plataforma empresarial deberá soportar el tráfico empresarial a gran escala (el valor máximo será de cientos de miles de QPS o incluso millones de QPS).

El modelo de plataforma de negocios resuelve muchos problemas, como resolver el problema de la baja eficiencia en la entrega causado por la construcción repetida de capacidades comerciales, facilitar la precipitación y propiciar la innovación; brindar una experiencia consistente para los usuarios finales, etc. Al mismo tiempo, también trae nuevos problemas / apelaciones:

  1. Control de flujo comercial refinado para el valor comercial (como limitación actual / clasificación de servicio / aislamiento)

  2. Problemas de estabilidad del sistema y costos de las puertas de enlace autoconstruidas en plataformas comerciales

  3. Garantía de estabilidad para tráfico intenso y ráfagas

Estos problemas requieren un conjunto de soluciones públicas para implementar una gestión y un control detallados del tráfico empresarial para obtener valor empresarial. Estos problemas / apelaciones se explican a continuación.

▐Control de flujo empresarial refinado   para valor empresarial


Los escenarios comerciales de las aplicaciones basadas en plataforma son complejos, brindan muchos servicios y hay muchos canales de origen de tráfico. Los efectos comerciales y los beneficios aportados por el tráfico de diferentes escenarios y canales serán muy diferentes, y se necesita una gestión y un control refinados para el valor comercial.

Por ejemplo, hemos extraído algunos escenarios generales de la gran promoción 11.11 a lo largo de los años:

  • Los diferentes servicios de la plataforma empresarial requieren un control refinado de los servicios básicos y no básicos.

    • Esta es también una escena que todo el mundo se encuentra a menudo, para diferentes servicios, como la limitación de corriente. Pero, ¿puede ir más allá y limitar la corriente cuando los recursos se utilizan por completo en lugar de dividir los recursos de forma estática por adelantado (como usar un valor límite de corriente fijo), lo que da como resultado el servicio central cuando el tráfico del servicio no central es pequeño y el consumo de recursos es bajo? El no hacer un uso completo de los recursos conduce a la pérdida del negocio principal.

    • La expectativa es que los servicios básicos puedan proporcionar servicios de la mejor manera posible, es decir, cuando se produce el control de flujo, el flujo de los servicios no básicos debería estar completamente restringido y los recursos deberían ser utilizados por completo por los servicios básicos.

  • Los diferentes canales de origen del tráfico de la plataforma empresarial tienen un valor empresarial diferente. La operación de control de flujo unificado no puede maximizar el valor empresarial

    • Cuando el flujo de los canales de bajo valor es demasiado grande, el control de flujo unificado puede exprimir el flujo de los canales de alto valor, haciendo que se descarte el flujo de los canales de alto valor.

  • El mismo servicio del mismo canal de origen también requiere una gestión y un control refinados. Por ejemplo, cuando el cliente tiene caché de datos comerciales y no tiene caché de datos comerciales:

    • En el escenario con caché de datos comerciales, la experiencia del usuario y los efectos comerciales se pueden garantizar mejor; mientras que en el escenario donde el cliente no tiene caché de datos comerciales, si se realiza un control de flujo, se reducirá la experiencia del usuario y afectará los efectos comerciales.

En otras palabras, existen diferencias en el valor comercial en el tráfico de estos escenarios comerciales.

La plataforma empresarial debe realizar una gestión y un control refinados de estos flujos de solicitud de valor empresarial diferenciados, y formular elaboradamente las estrategias actuales de limitación / clasificación de servicios / aislamiento para mejorar aún más los efectos y beneficios empresariales.

▐La   estabilidad y el costo del sistema de puerta de enlace autoconstruido de la plataforma empresarial


La plataforma empresarial admite muchos escenarios empresariales verticales. Los distintos escenarios empresariales esperan aislar el impacto de los problemas entre sí (como la sobrecarga de recursos del clúster, el impacto del proceso de demanda, el desarrollo y la eficiencia de la versión de prueba), y las aplicaciones basadas en la plataforma evolucionarán hasta convertirse en inquilinos aislados de servicios de nivel superior. Arquitectura. Para la programación del tráfico en aislamiento de inquilinos, la plataforma empresarial creará su propia puerta de enlace empresarial.

Las puertas de enlace "autoconstruidas" de estas plataformas empresariales tienen problemas:

  • Estabilidad del sistema:

    • Para la plataforma empresarial, la puerta de enlace empresarial y la programación de aislamiento son requisitos funcionales no comerciales, no son el foco de consideración y no son una gran inversión, y la complejidad de la puerta de enlace en sí.

    • Las puertas de enlace autoconstruidas de las plataformas comerciales a menudo se convierten en un riesgo para la estabilidad de la plataforma comercial, y no es raro que estas puertas de enlace autoconstruidas de varias plataformas comerciales tengan problemas.

  • Costos de desarrollo y operación y mantenimiento:

    • Para la misma capacidad de programación de aislamiento, se duplican las soluciones para implementar y mantener múltiples plataformas comerciales.

    • Cada plataforma empresarial debe pagar el costo de desarrollar y mantener su propia puerta de enlace.

Las empresas esperan estar aisladas, pero las puertas de enlace autoconstruidas traen peligros ocultos a la estabilidad del sistema, así como múltiples costos de desarrollo, operación y mantenimiento. Se espera que una puerta de enlace frontal unificada pueda resolver el problema de aislamiento horizontalmente.

Garantía de estabilidad   para un gran tráfico repentino


Las plataformas comerciales, como las transmisiones en vivo, los grandes lugares de promoción, las páginas de inicio y otras plataformas comerciales, tienen cientos de miles de QPS o incluso millones de QPS comerciales; y pueden explotar varias veces o incluso docenas de veces con un gran tráfico. La defensa contra un tráfico tan repentino es un problema. La puerta de enlace de acceso unificado construye una presa estable (decenas de millones de capacidad QPS) y está respaldada por un equipo de servicio básico profesional. El límite actual en la capa de acceso puede hacer frente eficazmente a un tráfico tan repentino.


Doble 11 combate de alta disponibilidad


En respuesta a los problemas anteriores, la solución refinada de control de tráfico de Marconi para el valor comercial proporciona las capacidades correspondientes: desde la capacidad refinada de control de flujo previo de la puerta de enlace de acceso unificada, la capacidad de aislamiento de enrutamiento hasta el contenedor de aplicaciones por servicio. La prioridad de servicio lleva a cabo la capacidad de control de flujo de clasificación de servicios para proporcionar una protección integral para la plataforma y el sistema empresarial.

En el Double 11 de este año, no solo las aplicaciones basadas en plataforma mencionadas anteriormente han resuelto muchos problemas en el pasado, cada sistema funcionó sin problemas, la experiencia del usuario fue fluida y se logró el efecto esperado; al mismo tiempo, como solución general, también hay muchos usos innovadores que integran de cerca los escenarios de negocios. .

  • En el escenario de distribución del tráfico, hay una caché de solicitud de reversión como una división de control de flujo fino, para maximizar la protección de la experiencia del usuario y el valor comercial de (limitador fino)

  • En una variedad de plataformas / servicios para hacer negocios para el uso de control de flujo jerárquico de acuerdo con las prioridades comerciales, servicio a su forma de partición flexible para clasificar el control de tráfico (clasificación de servicio adaptativo) para su servicio.

    • Como la transmisión en vivo, la interacción, my Taobao y las monedas de minería de oro mejoran aún más la experiencia del usuario y el valor comercial

    • Entre ellos, Tao es un grupo de servicios central, y su tasa de éxito en escenarios de alta presión se incrementa en un 2.5% (un solo contenedor tiene un aumento máximo del 17.8%)

  • En la escena de la sala de alta actuación, de acuerdo con la línea de negocio para aislar el enrutamiento, proteger la estabilidad del negocio, para mejorar la eficiencia del acceso al servicio (ruta refinada)

    • A través de la capacidad refinada de aislamiento de enrutamiento de la puerta de enlace frontal, el clúster se aísla en grupos que admiten de forma independiente diferentes lugares de negocios.

    • La agrupación puede ser operada y mantenida por cada parte comercial por su cuenta, lo que promueve en gran medida una mejora del 50% en la eficiencia del acceso comercial a conferencias.

  • En la gran promoción del lugar de la conferencia, la plataforma será el lugar principal del grupo de páginas como división de tráfico, control de flujo (restrictor fino)

    • Hay muchas fuentes de tráfico en el lugar y el tráfico del grupo de páginas de la fuente de drenaje está controlado, de modo que los recursos disponibles de la fuente principal de Taobao ya no se exprimirán y no habrá restricciones de tráfico inesperadas.

    • Ciertas fuentes de canales tienen conversiones de transacciones de tráfico más altas que otras fuentes, lo que garantiza la estabilidad general del sistema y la disponibilidad de solicitudes de páginas de lugares de alta conversión.

    • Además, la capacidad de limitación actual utilizada en el lugar está conectada directamente a la puerta de enlace de acceso unificado. Este año, el personal invertido en garantía de estabilidad ahorrará más de 100 días-hombre en comparación con el año pasado.

Solución En el combate real, cada plataforma / negocio puede usar todas las capacidades o una combinación de algunas capacidades de acuerdo con sus propios requisitos, tales como:

Límite de corriente preajustado según la fuente de tráfico / tipo de solicitud

Utilice las capacidades de enrutamiento + limitación pre-actual de la capa de puerta de enlace y el control de flujo adaptativo de la capa de contenedor

Varias fuentes de APP utilizan limitación de corriente previa en la capa de puerta de enlace, limitación de corriente adaptativa en la capa de contenedor + control de flujo jerárquico de servicio


Ideas de diseño


Para poder resolver los problemas anteriores, la idea general es establecer un conjunto de capacidades comunes y adaptarse al negocio. Permitir que la plataforma y la empresa organicen y controlen el tráfico de forma flexible en las dimensiones del campo empresarial de acuerdo con sus respectivas características y, en última instancia, logren los objetivos de estabilidad del sistema, el efecto empresarial y la mejora de los ingresos y una experiencia de usuario fluida.

Aquí se introducen tres conceptos básicos:

  • Identidad empresarial

  • Control de granularidad

  • capacidad de control

A través de la identificación del servicio llevada a cabo en la solicitud de la plataforma de servicio, el servicio básico proporciona granularidad de control detallada para controlar el tráfico de solicitud de servicio de cualquier granularidad en la plataforma de servicio.

▐   Logotipo de empresa


La identificación del servicio es el atributo de solicitud / tráfico Desde la perspectiva de cómo la plataforma empresarial divide el tráfico, suelen estar implicados varios tipos.

  • ID de fuente. O llamado identificador de llamadas e identificador de usuario, que se usa para distinguir diferentes fuentes de solicitudes comerciales. Por ejemplo, el logotipo de la página del gran lugar de promoción.

  • Identificación de plataforma empresarial. Es el tipo de plataforma empresarial que se utiliza para distinguir las diferentes plataformas empresariales que procesan las solicitudes empresariales. Por ejemplo, grandes lugares de promoción, páginas de inicio para dispositivos móviles, transmisiones en vivo, etc.

  • Identificación de atributos de operaciones comerciales. Por ejemplo, el tipo de solicitud de la página de inicio de Taobao del teléfono móvil.

La identidad empresarial en sí ya existe y cada empresa tiene su propia estructura de identidad empresarial. Aquí, las diversas identificaciones de servicio en la solicitud se analizan y extraen de una manera consistente y flexible, de modo que el tráfico de la solicitud se puede personalizar arbitrariamente de acuerdo con la combinación inteligente de identificaciones de servicio.

▐Control de   granularidad

Con la identidad empresarial, la plataforma empresarial puede configurar y definir la granularidad del control a través de la identidad empresarial. Una granularidad de control es un grupo de unidades de división de tráfico de solicitud, y en esta unidad se realiza un control preciso.

La granularidad de control incluye un componente de expresión y un conjunto de información de configuración con semántica empresarial. Bajo cada plataforma empresarial, puede definir una granularidad de control que sea independiente de otras plataformas y esté estrechamente relacionada con su propio negocio. En el nivel de acceso de la puerta de enlace, para el tráfico de solicitudes masivas, se identificará el tráfico para ver a cuál / grupo de rangos de granularidad de control pertenece el tráfico.

La introducción de la granularidad de control e identificación empresarial es más adecuada para las empresas que las puertas de enlace API tradicionales que utilizan nombres y parámetros de API para limitar la corriente y se pueden personalizar para satisfacer diversas demandas empresariales.

Capacidad de control  

Con la granularidad de control y el tráfico refinado dividido por ella, se puede montar un conjunto de capacidades de control requeridas en la granularidad de control (tráfico refinado) para completar los requisitos de control fino requeridos por la empresa, tales como:

  • La página de inicio de Taobao para teléfonos móviles lleva a cabo una limitación de precorriente de puerta de enlace refinada de acuerdo con el tipo de solicitud.

  • El lugar de la gran promoción realiza una refinada limitación pre-actual de la puerta de enlace de acuerdo con el logotipo de la página del sitio.

  • Los servicios basados ​​en plataforma, como los lugares de conferencias a gran escala, están programados para el enrutamiento del tráfico de acuerdo con los servicios a los que se accede.

  • Los servicios como la transmisión en vivo, la interacción, la moneda de oro, My Taobao, etc. deben controlarse jerárquicamente de acuerdo con la prioridad de personalización comercial.


solución


Combinando las ideas de diseño anteriores para problemas comerciales basados ​​en plataformas y resolución de problemas, Marconi proporciona un conjunto de soluciones refinadas de control de tráfico.

  • No use el nombre o parámetro de la API tradicional para realizar el control de flujo y el enrutamiento desde la perspectiva de la tecnología parcial, pero use la granularidad de administración y control que se puede ajustar de manera flexible para adaptarse al negocio para un control de flujo fino, aislamiento de enrutamiento y clasificación de servicios para cumplir con varias plataformas y Requisitos de control de tráfico individualizados del negocio.

  • Los niveles de arquitectura múltiple (desde puertas de enlace de acceso hasta clústeres / contenedores de aplicaciones empresariales) controlan el tráfico empresarial y mejoran los efectos de los servicios empresariales.

▐Overall   arquitectura


La refinada solución de control de flujo de Marconi

La identificación del servicio es un atributo de la solicitud / tráfico, y cada solicitud se puede dividir en diferentes granularidades de control para su gestión de acuerdo con la identificación. Después de dividir el tráfico refinado por la granularidad de control, con el ID de granularidad de control como contexto, se puede conectar un conjunto de capacidades de control requeridas en serie:

  • Capacidad de control de flujo frontal de la puerta de enlace (granularidad de control más refinada):

    • Resuelva el problema del control de flujo de negocios fino orientado al valor comercial y la garantía de estabilidad para un gran flujo repentino.

  • Capacidad de aislamiento de enrutamiento de puerta de enlace (aislamiento físico de recursos en clúster):

    • Resuelva el problema de la estabilidad del sistema y el costo del control de flujo empresarial refinado para el valor empresarial y la puerta de enlace de la plataforma empresarial de construcción propia.

  • Capacidad de control de flujo adaptativo del contenedor (capacidad de ajuste de carga de la granularidad del contenedor):

    • Solucione problemas / fallas causados ​​por diversas incertidumbres en los cambios de tráfico, iteraciones de lógica empresarial y procesos de evaluación manual.

  • Capacidad de clasificación de servicios de contenedores (aislamiento adaptativo de la granularidad del servicio en contenedores):

    • Resuelva el problema del control de flujo de negocios fino orientado al valor comercial y la garantía de estabilidad para un gran flujo repentino.

Al final, se cumple la demanda de una gestión y un control refinados del tráfico de solicitudes comerciales y se logra el objetivo de resultados de alta calidad de los servicios comerciales.

La limitación y el aislamiento actuales se procesan previamente a través de la puerta de enlace de la capa de acceso, que puede proteger el sistema empresarial detrás de ella de una manera más refinada, eficiente y poderosa.

La capacidad de control de flujo previo de la puerta de enlace falla rápidamente después de que el flujo de servicio excede el umbral y evita que la solicitud deambule en el enlace del sistema como un fantasma antes de que falle el tiempo de espera;

Las puertas de enlace a menudo pueden tener impactos de tráfico muy altos, que son miles de veces la capacidad de procesamiento de solicitudes de un solo sistema empresarial, como una presa.

▐   Clasificación de servicios

El control de flujo adaptativo de Noah está orientado a los principales recursos de la CPU del sistema y se basa en algoritmos de control de retroalimentación para el ajuste de carga del sistema adaptativo. El año pasado ha pasado por varias pruebas de promoción importantes y es muy maduro. Y este año, también hemos explorado enérgicamente las capacidades y realizado un control de flujo jerárquico diferenciado (aislamiento adaptativo) para los niveles de servicio empresarial, de modo que los sistemas empresariales tengan la mayor cantidad de efectos y beneficios de servicio cuando se enfrenten a un tráfico pesado y garanticen la estabilidad del sistema. Buen rendimiento.

Efecto del plan de protección de clasificación de servicios

▐Business   efecto

Marconi tiene un desempeño sobresaliente en estabilidad, costo, eficiencia y experiencia, y sus beneficios y efectos comerciales especiales se han mejorado significativamente.

  • Limitación de corriente frontal refinada:

    • La capacidad de limitación actual utilizada en el lugar se reenvía directamente a la puerta de enlace de acceso unificado. Este año, el personal invertido en garantía de estabilidad ahorrará más de 100 días-persona en comparación con el año pasado.

    • La presa construida por la puerta de enlace de la capa de acceso puede defender miles de veces la carga de tráfico (por ejemplo, el tráfico anormal de 900WQPS debido a la solicitud de amplificación de errores de front-end, y el tráfico en sí solo se estima en el orden de 10WQPS), control de flujo frontal Para evitar que las aplicaciones comerciales se vean abrumadas, junto con las capacidades de control de flujo adaptativo puede proporcionar capacidades de defensa absoluta.

  • Aislamiento de enrutamiento refinado:

    • La eficiencia de acceso al servicio de la plataforma del lugar se incrementa en un 50%.

    • Los servicios basados ​​en plataforma aíslan / distribuyen el tráfico de diferentes servicios / escenarios por recursos físicos para evitar problemas en un determinado servicio / escenario que provocan la falla general de todo el clúster de la plataforma.

  • Clasificación de servicio:

    • La tasa de éxito del clúster de los principales servicios de la plataforma de transmisión en vivo (sala en vivo, ver lista de bolsillo para bebés) aumentó en un 2,5% (el contenedor único aumentó en un 17,8%).

    • Puede evitar que un solo servicio con problemas ocupe recursos del sistema y cause problemas con los servicios globales de la aplicación (como el aumento de RT saliente de la siguiente interfaz de recorrido, problemas excesivos de escritura de registros e incluso otros problemas desconocidos de aumento de bloqueo / retraso).

En 2020 Double 11, Marconi garantizará la estabilidad de las plataformas comerciales centrales del Departamento de Tao (Taobao, Tmall, etc.) (como la página de inicio, el lugar, la transmisión en vivo, interactiva, My Taobao, etc.) y múltiples niveles de arquitectura (pasarelas de acceso) , Desde el clúster de aplicaciones comerciales hasta el nivel de contenedor) controle el tráfico comercial y mejore los efectos del servicio comercial, y brinde a los usuarios una experiencia fluida; mejore la estabilidad del Departamento de Tao (y más BU del Grupo Alibaba) y conviértase en la garantía de estabilidad de la aplicación Capacidades principales; promover el progreso de la industria en garantías de alta disponibilidad / estabilidad en sistemas comerciales en línea distribuidos a gran escala; ¡brindar garantía para el nuevo récord doble 11 de este año!

Equipo de Arquitectura del Departamento de Tao

Bienvenido a unirse al equipo de arquitectura del Departamento de Tao. Los miembros del equipo se reúnen aquí, incluidos los fundadores de Ali Mobile Middleware, los miembros principales de Dubbo y un grupo de pequeños socios que aman la tecnología y esperan usar la tecnología para promover los negocios.

El equipo de arquitectura del Departamento de Tao promueve la actualización de la arquitectura del Departamento de Tao (Taobao, Tmall, etc.) y se compromete a proporcionar al Departamento de Tao y a todo el grupo las capacidades, productos y soluciones básicos básicos:

  • Soluciones empresariales de alta disponibilidad y capacidades centrales (plataforma Marconi de control de tráfico refinado: proporciona soluciones flexibles de alta disponibilidad para empresas con control de flujo adaptativo, aislamiento y fusión, alta disponibilidad del sitio: reparación automática de fallas, múltiples salas de computadoras y recuperación remota de desastres y Recuperación de flujo de corte rápido)

  • Una nueva generación de modelo de investigación y desarrollo empresarial FaaS (plataforma Gaia de investigación y desarrollo de función integral)

  • Implementación y aterrizaje del protocolo de red de próxima generación QUIC

  • Middleware móvil (API Gateway MTop, capa de acceso AServer, mensaje / push, centro de configuración, etc.)

Esperamos participar juntos en la construcción de la plataforma básica del Departamento de Tao ~

Envíe su currículum a ???: 哲 良[email protected] (Líder de Arquitectura-Infraestructura del Departamento de Tao)

✿ Más   lecturas

Autores | Li Ding (Zheliang), Xu Zebin (Ze Bin), Xiong Zheng (Ocho vientos) 

Editar | Naranja

Producido | Nueva tecnología minorista de Alibaba

Supongo que te gusta

Origin blog.csdn.net/Taobaojishu/article/details/110017964
Recomendado
Clasificación