El mayor problema del experimento AB en el sesgo y la solución del flujo de recomendación: arquitectura de experimento superpuesta

El mayor problema del experimento AB en el sesgo y la solución del flujo de recomendación: arquitectura de experimento superpuesta

El flujo es imparcial. Este es el problema más grande y más difícil de la distribución del tráfico. Cuando solo se realiza un experimento al mismo tiempo, el problema no es obvio, pero si desea realizar varios experimentos al mismo tiempo, cómo evitar el impacto del experimento anterior en el último experimento, este efecto es el sesgo de flujo, lo que significa que en la distribución del flujo del experimento anterior Hay un factor potencial que afecta la distribución del flujo. Este factor potencial no es fácil de notar. Si el factor potencial afecta los resultados experimentales, es difícil obtener una conclusión objetiva en el experimento que obtiene tráfico detrás de este experimento. Este requisito sin desplazamiento también se denomina "ortogonal".

Arquitectura experimental superpuesta

El llamado experimento de superposición es un flujo desde el ingreso al servicio del producto y finalmente devuelve el resultado al usuario. Hay varios puntos de control en el medio, cada punto de control está probando algo, por lo que hacer múltiples conjuntos de experimentos al mismo tiempo es un experimento de superposición.
Como se mencionó anteriormente, el mayor problema con la superposición de experimentos es cómo evitar el sesgo de flujo. Para este fin, deben introducirse tres conceptos.

  • Dominio: es una gran división de tráfico. Cuando entra el tráfico de nivel superior, el dominio se divide primero.
  • Capa: es un subconjunto de parámetros del sistema, y ​​el experimento de capa es una prueba de un subconjunto de parámetros.
  • Barriles: los grupos experimentales y de control están en estos barriles.

Las capas y los dominios se pueden anidar entre sí. El significado principal es dividir el tráfico, por ejemplo, dividir el 50%, y el 50% del tráfico es un dominio. Hay varias capas experimentales en este dominio. En cada capa experimental, puede continuar anidando dominios, es decir, puede mejorar la división de 50. % De tráfico. Las siguientes dos figuras ilustran dos casos con y sin división de dominio.
Inserte la descripción de la imagen aquí
El lado izquierdo de la figura es un experimento de tres capas, pero no hay división de dominio. La primera capa de experimentos debería probar la IU, la segunda capa debería probar los resultados de las recomendaciones y la tercera capa debería probar los resultados de insertar anuncios en los resultados de las recomendaciones.
Las tres capas no se afectan entre sí.
En el lado derecho de la figura, se agrega la división del dominio, es decir, no todo el tráfico está involucrado en el experimento, pero una parte se divide en el dominio izquierdo. El flujo restante es el mismo que el experimento de la izquierda.

Para entender aquí, ¿por qué los experimentos de varias capas se superponen sin causar un sesgo de flujo?
Esto requiere el concepto de barriles. Todavía la imagen de la izquierda en el diagrama esquemático anterior, si cada capa de esta plataforma experimental se divide de manera uniforme y aleatoria en 5 barriles, en la plataforma experimental real, puede haber miles de barriles, aquí solo, por ejemplo.
El diagrama esquemático es el siguiente:
Inserte la descripción de la imagen aquí
este es un experimento de tres capas dividido en dominios.
Cada capa se divide en 5 cubos, y llega un flujo. En la primera capa, hay un algoritmo de distribución aleatorio unificado. Se agrega cookie o UUID a la primera ID de capa para dividir en un entero, y luego el entero se lleva a 5 Modo, por lo que un flujo ingresa aleatoriamente a uno de los 5 cubos.
Cada cubo obtiene el 20% del flujo de manera uniforme. Cada grupo ya ha decidido qué tipo de interfaz de usuario mostrarle, y el tráfico continúa bajando. El flujo de cada cubeta aún enfrenta uno de los 5 cubos que entran aleatoriamente en la siguiente capa de experimentos. El 20% original del flujo de cada cubeta se divide en 5 partes, y cada cubeta tiene el 4% del flujo en la segunda Capa cada cubo.
De esta manera, cada cubo de la segunda capa realmente obtiene el 20% del flujo total, y el impacto de la capa anterior del experimento se dispersa de manera uniforme en cada cubo de esta capa, es decir, La capa anterior de experimentos no tiene efecto en esta capa . Lo mismo es cierto para la tercera capa de experimentos.
Este es el principio más básico de los experimentos en capas. Sobre esta base, se agrega el concepto de dominio, solo para configurar más experimentos de manera más flexible.

Hay algunos puntos a tener en cuenta sobre experimentos en capas:

  • 1. Al agrupar cada capa, no se trata solo del módulo de hash de Cookie o UUID, sino que se agrega la ID de capa para hacer que los cubos entre las capas sean independientes entre sí;
  • 2. Cuando mezcle cookies o UUID en números enteros, considere usar un algoritmo de hash uniforme, como MD5.
  • 3. El módulo debe ser consistente: para la experiencia del usuario, aunque es un experimento de cubeta, pero el mismo usuario se siente inconsistente cada vez en la misma ubicación, lo que dañará la experiencia del usuario.

El método de distribución de tráfico para codificar la ID de usuario en el ejemplo anterior es solo uno de ellos, y hay tres tipos de métodos de distribución de tráfico, un total de cuatro :

  • Cookie + módulo de ID de capa ;
  • Completamente al azar
  • Modulación de ID de usuario + ID de capa;
  • Cookie + módulo de fecha.
Publicado 93 artículos originales · elogiado 8 · 10,000+ vistas

Supongo que te gusta

Origin blog.csdn.net/zlb872551601/article/details/103757907
Recomendado
Clasificación