[Análise de Dados] aprendizagem AB Teste

Reproduzido Fonte: https://www.cnblogs.com/zichun-zeng/p/9042779.html

A inscrição AB teste:

AB teste de significância:

A análise dos dados nos diz para não fazer algo, ab gabarito de teste nos diz que fazemos bem não é bom, onde há problemas, bem como uma medida da incerteza de quanto o crescimento pode trazer.

Em primeiro lugar, a base teórica

1 , o teorema limite central:

Um grande número de variáveis aleatórias independentes com média (ou e) a distribuição limite para uma distribuição normal (isto é, se forem satisfeitas certas condições, tais como Amostra Tamanho é relativamente grande, o número de amostragem região infinito tempo, mais próximo da normalidade distribuição). E este teorema lugar incrível é que não importa o que a distribuição da variável aleatória, satisfazer este teorema.

2 , a lei dos grandes números

Pode ser descrita como simples, se há uma variável aleatória X, você constantemente observando e amostragem da variável aleatória n amostras valores obtidos, que, em seguida, determinou a média de n amostras de valor, quando n tende ao infinito positivo de tempo, o valor médio converge para as expectativas variável aleatória X.

3, intervalos de confiança e significância estatística

referência:

https://zhuanlan.zhihu.com/p/24399612

O conceito: amostras, o total

O intervalo de confiança é (para os parâmetros globais de uma amostra de probabilidade intervalo de estimativa), a gama média da amostra, que mostra a probabilidade de que a gama média inclui parâmetros gerais, esta probabilidade é chamado o nível de confiança;

Nível de Confiança representa a confiabilidade das estimativas, em geral, usamos a 95% nível de confiança estimativa intervalo.

Significado do intervalo de confiança no ABtest :( intervalo de confiança da diferença média entre os dois no total)

Obter o valor Z é calculado pelo teste t de grande fórmula de teste de amostra (calculado a partir do tamanho médio, de exemplo, os valores de desvios estatísticos, combinadas com as estatísticas de fórmula distribuição, pode também ser calculado o valor p, a fim de tomar uma decisão se para rejeição da hipótese nula) , em seguida, de acordo com os dois média da população, o desvio padrão e similares
deste tamanho, usando a seguinte equação para determinar a diferença entre os dois meios de população de 95% de intervalo de confiança

Zhidezhuyi que os limites superior e inferior do intervalo de confiança com positivo ou negativo, só pode mostrar ensaio foi estatisticamente significativa (isto é, a versão de teste e de controlo de versões são diferentes), mas esta diferença pode ser muito pequena, na aplicação prática insignificantes. Portanto, somente duas características ambos os resultados estatisticamente significativos e efeito significativo, a fim de explicar esta versão está disponível, vale a pena publicar.

Dois, os testes de AB Precauções experimentais

1, a consistência do tempo;

2, a distribuição de dados de consistência;

3, resultados estatisticamente significativos pode orientar a tomada de decisão;

4, desenho experimental de blocos (fluir para ser distribuída uniformemente):

algoritmo de desvio para o utilizador não é reflectida para a banheira pontos experimentais, que irá aumentar a diferença entre o efeito do algoritmo, gerando assim paradoxo de Simpson;

5, a confiança

Para obter uma confiança resultados dos testes requerem um certo tempo de escoamento (amostra) e, se o fluxo (amostra) é muito pequena ou pontos irregulares, os resultados dos testes são não pode ser obtido esporádicos, resultados fiáveis; o tempo de execução de teste é demasiado curto as mesmas palavras;

6, momento

O período experimental deve evitar a influência de factores externos, tanto quanto possível estáveis no tempo, para reduzir a interferência de factores externos;

Por vezes, a fim de assegurar a confiança nos resultados experimentais, as conclusões para evitar baixo fluxo não é uniforme, durante o teste, e gradualmente aumentar a distribuição das taxas de fluxo, enquanto se monitorizava a evolução dos principais indicadores de dados, obtendo-se assim uma confiança;

Em terceiro lugar, o shunt e sub-balde obras

A necessidade de assegurar:

(1) A mesma experiência pontos diferentes entre a banheira é aleatória;

(2) cenas diferentes, experimental, kit de partes será quebrada de novo;

(3) O projeto experimental, precisamos considerar a autenticação qual fator, você pode ser dividida barril de acordo com o fator;

A relação entre o tambor e o sub shunt:

　　meios de derivação, a partir de uma pequena percentagem de uma amostra aleatória de população para fazer a experiência;

　　Refere-se a sub-barril, que na experiência foram divididos aleatoriamente fluxo de acordo com uma banheira requerem factor de autenticação;

Em quarto lugar, o regime de certificação desequilibrada sub-barrel

1, o teste de AA

A / A Um teste será apreciado que o par de duas versões do mesmo teste / B. Em geral, o objetivo deste teste é verificar a ferramenta está sendo usada para executar uma feira estatisticamente. Em A / A de teste, se o teste correctamente, os grupos de controlo e experimentais não faz qualquer diferença.

Se o A / B testes para testar os méritos comparativos de vários programas, em seguida, o A / Um teste é uma forma eficaz de testes A / B e ferramenta de verificação de confiança.

Deve considerar a execução A / Um caso de teste é único:

(1) você acabou de instalar uma nova ferramentas de teste ou alterar as configurações de ferramentas de teste;

(2) você encontra os resultados A / dados de teste B e análise são diferentes entre a ferramenta;

Geralmente realizado antes do teste teste AA AB, ou por teste A / A / B, enquanto teste ab para ver se há uma diferença estatisticamente significativa entre os dois grupos A idêntico, determinando desse modo se as sub-regras banheira voar. Alguns analistas sugerem que, desta forma não controla directamente, tais como barris (um tambor) é um barris experimentais (b de barris) de duas vezes maior (chamada pooling)

2, um número de testes estatísticos;

Cinco minutos barris solução desequilibrada

1, a evolução experimental de AA de A: B = 2: 1 de distribuição do tamanho do fluxo;

2, a comparação feita pela taxa de fluxo de modo ampliar gradualmente;

aplicações de teste de seis, AB

1, uma forma de realização preferida;

2, o sistema de teste;

3, causal inferência;

teste AB e avaliar os prós e contras e cenários de uso off-line:

1, AB instalação e manutenção do sistema de teste requer um certo custo, existem certos requisitos técnicos, se o sistema não faz bem, com mais prejudicial; sistema de ab é mais conveniente para um efeito de otimização algoritmo de medida / produto provocado, por escassez de empresas start-up que empregam não é realmente necessário;

2, off-line de avaliação é o cenário realidade mais importante linha virtual, se a simulação não é bom, os resultados dos testes off-line também não é credível;

　　No entanto, quando o sistema de teste ab da empresa não construiu um bom tempo, off-line ou necessário avaliar, pelo menos há algum problema algoritmo óbvio pode ser visto por meio de testes off-line, seleção de modelos e afinação também exige testes off-line e teste offline não afetará on-line, experimento ab vontade;

3, quando o produto intensa no mercado, o ambiente competitivo, a necessidade de linha projeto para ganhar oportunidade favorável, eles muitas vezes dependem de decisões estratégicas para decidir sobre a linha ou não, em vez de experimentos ab, teste ab para alguns do período de observação e requerem condições externas são relativamente estáveis, a fim de obter informações objectivas conclusões para o desenvolvimento do produto em um período relativamente estável quando a decisão para evitar erros de dados caem;

　　Portanto, a análise de dados em tempo real é necessário, a necessidade de tempo real teste ab não é muito forte;

4, a maioria sistema de teste ab não tem a capacidade de empurrar a tomada de decisões continua a observar o conjunto, algumas relacionadas a perceber a longo prazo objetivos estratégicos da empresa ou produtos funções / algoritmos, pode levar a indicadores de curto prazo diminuiu ou não aumentaram sensivelmente, mas também deve a sobre-linha;

5, AB teste para ajudá-lo a obter mais receita no tráfego existente, ou atualizar ROI existente no trânsito, ou para melhorar a atividade na base de usuários existente, mas a medida de crescimento de assinantes ou obter novo tráfego é o útil, ab teste o papel ou não.

6, teste AB há uma desvantagem que o efeito só pode fazer em pequena escala em comparação com o efeito de tal ação usando algoritmos diferentes em comparação com a mesma cena, por exemplo, não nos dizer se a recomendação algoritmo de um negócio do que algoritmos de recomendação de negócios B bem feito, isto é, não pode medir a migração e generalização de um modelo;

análise do teste e os dados algoritmo associado com ab:

1, o modelo utilizando algoritmos que profundo, método de teste ab para medir o efeito de ponta a ponta; modelo interpretação é então feita por análise estatística ou um método ml, ou característica modelar antes da análise.

outros:

1 , Darwin sistema de verificação de fluxo de solução do problema da má distribuição: Conjunto de teste AA

2 , e um grupo de controle para otimizar a linha de base acordo, ao design experimental e precisamos verificar as conclusões consistentes com o trabalho;

3 , no final, se as necessidades modelo de Belas A afinação (alguns modelos pesam entre sintonia com as novas tentativas algoritmo: ?? olhar no final o objetivo é recordar com precisão ou para realmente equilibrar a alta precisão e taxas de recall de lado as necessidades do negócio, uma bom modelo é a base para as taxas de precisão e de recall tendem a fechar, mas também para alcançar tanto um valor superior; que, se há uma necessidade de negócio, em seguida, usar as características apropriadas do modelo baseado nas necessidades de negócios)

4, modelo de formação online, que no final é uma amostragem ou provar o valor total da formação é melhor? (Optimized amostragem aspectos da amostra de treino) (requer verificação experimental)

5, a optimização característica abrangente para melhorar a diversidade e melhorar as características de processamento da forma de realização inclui as características;

Análise de Dados -> Processamento de recurso base -> Modelo de Design -> Plataforma Tool (na qual Engenharia, treinamento do modelo, e previsão) -> Desenho Experimental e Verificação -> (feedback a qualquer passo anterior foi ordem de execução)