[Análisis de datos] de aprendizaje de prueba AB

Reproducido Fuente: https://www.cnblogs.com/zichun-zeng/p/9042779.html

Descripción de la prueba AB:

Prueba AB de significación:

El análisis de datos nos dice que no haga algo, ab retroalimentación prueba nos dice que nos va bien no es bueno, donde hay problemas, así como una medida de la incertidumbre de cuánto crecimiento puede traer.

En primer lugar, la base teórica

1 , el teorema del límite central:

Un gran número de variables aleatorias independientes con media (o y) la distribución límite a una distribución normal (es decir, cuando se cumplen ciertas condiciones, tales como tamaño de la muestra es relativamente grande, el número de muestreo región tiempo infinito, más cerca de la normalidad distribución). Y este teorema lugar asombroso es que no importa lo que la distribución de la variable aleatoria, satisfacer este teorema.

2 , la ley de los grandes números

Puede ser descrito como simple, si hay una variable aleatoria X, que constantemente observando y el muestreo de la variable aleatoria n muestras de valores obtenida, que luego se determinó el promedio de n muestras de valor, cuando n tiende a infinito positivo del tiempo, el valor medio converge a las expectativas variable aleatoria x.

3, intervalos de confianza y la significación estadística

referencia:

https://zhuanlan.zhihu.com/p/24399612

El concepto: muestras, el general

El intervalo de confianza es (para los parámetros generales de una muestra de probabilidad la estimación del intervalo de) la gama media de la muestra, se muestra la probabilidad de que la gama media incluye parámetros generales, esta probabilidad se llama el nivel de confianza;

Nivel de confianza representa la fiabilidad de las estimaciones, en general, utilizamos la estimación del intervalo de confianza del 95%.

Importancia del intervalo de confianza en ABtest :( intervalo de confianza de la diferencia media entre los dos en total)

Obtener valor Z se calcula t-test gran fórmula de prueba de la muestra (calculada a partir del tamaño medio, la muestra, los valores de varianza estadística, combinados con estadísticas por la fórmula de distribución, también puede calcularse el valor de p con el fin de tomar una decisión si desea rechazar la hipótesis nula) , a continuación, de acuerdo con los dos media de la población, la desviación estándar y similares
de este tamaño, utilizando la siguiente ecuación para determinar la diferencia entre dos medias de población 95% intervalo de confianza:

Zhidezhuyi que los límites superior e inferior del intervalo de confianza con positivo o negativo, sólo puede mostrar ensayo fue estadísticamente significativa (es decir, la versión de prueba y de control de versiones son diferentes), pero esta diferencia puede ser muy pequeña, en la aplicación práctica insignificante. Por lo tanto, sólo dos características tanto de resultados estadísticamente significativos y efecto significativo, con el fin de explicar esta versión está disponible, vale la pena publicar.

Dos, las pruebas de AB de Precauciones experimentales

1, la consistencia del tiempo;

2, la consistencia de distribución de datos;

3, resultados estadísticamente significativos que pueden orientar la toma de decisiones;

4, diseño de bloque experimental (flujo para ser distribuidos de manera uniforme):

algoritmo de desviación para el usuario no se refleja a la bañera de puntos experimentales, se agrandará la brecha entre el efecto del algoritmo, generando de este modo paradoja de Simpson;

5, la confianza

Para obtener un confiable resultados de la prueba requieren un tiempo de cierto flujo (muestra) y, si el flujo (muestra) es demasiado pequeño o puntos irregulares, resultados de la prueba están resultados esporádicos, fiable no puede ser obtenida, el tiempo de ejecución de prueba es demasiado corto las mismas palabras;

6, el tiempo

período experimental debe evitar la influencia de factores externos, como la medida de lo posible estable en el tiempo, para reducir la interferencia de los factores externos;

A veces, con el fin de garantizar la confianza en los resultados experimentales, las conclusiones para prevenir bajo flujo no es uniforme, durante la prueba, y aumentar gradualmente la distribución velocidad de flujo, mientras que el seguimiento de la tendencia de los indicadores clave de datos, obteniendo de este modo una confianza;

En tercer lugar, las obras de derivación y sub-cubo

La necesidad de asegurar:

(1) El mismo experimento diferentes puntos entre la bañera es al azar;

(2) diferentes escenas, experimental, kit de partes se pueden dividir de nuevo;

(3) el diseño experimental, debemos tener en cuenta cuál es el factor de autenticación, que se pueden dividir barril de acuerdo con el factor;

La relación entre el cañón y el sub shunt:

　　medios de derivación, desde un pequeño porcentaje de una muestra aleatoria de la población para hacer el experimento;

　　Se refiere a sub-barril, lo que en el experimento fueron divididos aleatoriamente flujo de acuerdo con una bañera requieren factor de autenticación;

En cuarto lugar, el esquema de certificación desequilibrada sub-barril

1, la prueba AA

A / A A prueba se apreciará que el par de dos versiones de la misma prueba / B. En general, el propósito de este ensayo es comprobar si la herramienta se utiliza para ejecutar una feria estadísticamente. En A / A prueba, si la prueba correctamente, los grupos de control y experimentales no hace ninguna diferencia.

Si el A / B pruebas para probar los méritos comparativos de varios programas, entonces el A / A prueba es una manera eficaz de las pruebas A / B y la herramienta de verificación de confianza.

Deberían considerar corriendo A / Un caso de prueba es único:

(1) que acaba de instalar una nueva herramientas de prueba o cambiar los ajustes de la herramienta de prueba;

(2) a encontrar los resultados de A / y análisis de datos de ensayo B son diferentes entre la herramienta;

Generalmente se realiza antes de la prueba de prueba AA AB, o mediante la prueba de A / A / B mientras que la prueba ab para ver si hay una diferencia estadísticamente significativa entre los dos grupos A idénticos, determinando de este modo si los sub-reglas bañera vuelan. Algunos analistas sugieren que de esta manera no controla directamente, como los barriles (un barril) es un barriles experimentales (b barriles) dos veces más grande (la llamada puesta en común)

2, una serie de pruebas estadísticas;

A cinco minutos de barriles solución desequilibrada

1, la evolución experimental de AA A: B = 2: 1 de distribución de la magnitud de la corriente;

2, la comparación realizada por la velocidad de flujo de manera gradualmente Ampliar;

aplicaciones de prueba de seis, AB

1, una realización preferida;

2, el sistema de prueba;

3, la inferencia causal;

AB prueba y evaluar los pros y los contras y escenarios de uso fuera de línea:

1, la configuración del sistema de prueba AB y mantenimiento requiere un cierto coste, hay ciertos requisitos técnicos, si el sistema no lo hace bien, pero con la dañina; sistema AB es más conveniente para un efecto de optimización algoritmo de medida / producto provocada, por escasez de empresas de nueva creación que emplean no es realmente necesario;

2, fuera de la línea de evaluación es el importante escenario de realidad virtual en línea más, si la simulación no es bueno, los resultados de las pruebas fuera de línea tampoco es creíble;

　　Sin embargo, cuando el sistema de prueba ab de la compañía no ha construido un momento bueno, en línea o fuera necesario evaluar, al menos hay un cierto problema algoritmo obvia puede ser visto por las pruebas fuera de línea, la selección del modelo y de afinación también requiere pruebas fuera de línea y pruebas fuera de línea no afectará en línea, experimentar AB;

3, cuando el producto intensa en el mercado, el entorno competitivo, la necesidad línea de proyecto para ganar oportunidad favorable, que a menudo dependen de decisiones estratégicas para decidir sobre la línea o no, en lugar de experimentos ab, prueba ab por alguna del período de observación y requieren condiciones externas son relativamente estables con el fin de obtener una información objetiva conclusiones para el desarrollo del producto en un tiempo relativamente estable cuando la decisión para evitar errores en los datos caen;

　　Por lo tanto, el análisis de datos en tiempo real es necesario, la necesidad de una prueba de AB en tiempo real no es muy fuerte;

4, la mayor parte del sistema de prueba ab no tiene la capacidad de impulsar la toma de decisiones continúa observando la totalidad, algunas relativas a darse cuenta de los objetivos estratégicos a largo plazo de las compañías o productos funciones / algoritmos, puede dar lugar a indicadores de corto plazo disminuyó o no aumentó notablemente, sino que debe también a en línea;

5, AB prueba para ayudarle a obtener más ingresos en el tráfico existente o actualice retorno de la inversión existente en el tráfico, o para aumentar la actividad en la base de usuarios, pero la medida del crecimiento de los suscriptores o conseguir un nuevo tráfico es el útil, prueba ab el papel o no.

6, prueba de AB existe la desventaja de que el efecto sólo se puede hacer a pequeña escala en comparación con el efecto de dicha acción utilizando diferentes algoritmos en comparación con la misma escena, por ejemplo, no nos dice si la recomendación algoritmo Un negocio de algoritmos de recomendación de negocios B bien hecho, esto es, no se puede medir la migración y la generalización de un modelo;

de prueba y análisis de datos algoritmo asociado con ab:

1, el modelo utilizando algoritmos do profundo, método de ensayo ab para medir el efecto de extremo a extremo; modelo de interpretación se hace entonces por análisis estadístico o un método ml, o función de modelado antes del análisis.

otros:

1 , el flujo del sistema de verificación de la solución del problema la mala distribución de Darwin: Conjunto de pruebas AA

2 , y un grupo de control para optimizar la línea de base del acuerdo, al diseño experimental y tenemos que verificar las conclusiones consistentes con el trabajo;

3 , al final si las necesidades de los modelos a fina la afinación (algunos modelos pesan entre sintonía con los nuevos intentos algoritmo: ?? Mira al final el objetivo es recordar con precisión o para realmente equilibrar la alta precisión y las tasas de recordar a un lado las necesidades del negocio, una buen modelo es la base de las tasas de precisión y la recuperación tienden a cerrar, pero también para obtener a la vez un valor más alto, que si hay una necesidad de negocio, a continuación, utilizar las características apropiadas del modelo basado en las necesidades del negocio)

4, modelo de formación en línea, que al final es una muestra o una muestra de la cantidad total de la formación es mejor? (Optimized muestreo de los aspectos de la muestra de entrenamiento) (requiere verificación experimental)

5, la optimización característica integral para mejorar la diversidad y mejorar las características de procesamiento de la forma de realización incluye las características;

Análisis de datos -> procesamiento de operación base -> Modelo de Diseño -> Plataforma de herramientas (en ingeniería, formación de modelo, y la predicción) -> Diseño experimental y verificación -> (retroalimentación a cualquiera de la etapa anterior era orden de ejecución)