Como o Evidently calcula resultados - Amazon CloudWatch

Como o Evidently calcula resultados

Você pode usar o teste A/B do Amazon CloudWatch Evidently como ferramenta para a tomada de decisão baseada em dados. Em um teste A/B, os usuários são atribuídos aleatoriamente ao grupo de controle (também chamado de variação padrão) ou a um dos grupos de tratamento (também chamados de variações testadas). Por exemplo, os usuários do grupo de controle podem experimentar o site, o serviço ou a aplicação como faziam antes do início do experimento. Enquanto isso, os usuários do grupo de tratamento podem experimentar a alteração.

O CloudWatch Evidently oferece suporte para até cinco variações diferentes em um experimento. O Evidently atribui tráfego aleatoriamente para essas variações. Dessa forma, é possível acompanhar métricas de negócios (como receita) e métricas de performance (como latência) de cada grupo. O Evidently realiza estas ações:

  • Compara o tratamento com o controle. (Por exemplo, comparar se a receita aumenta ou diminui com um novo processo de pagamento.)

  • Indica se a diferença observada entre o tratamento e o controle é significativa. Para isso, o Evidently oferece dois métodos: Frequentist significance levels (Níveis de significância frequentista) e Bayesian probabilities (Probabilidades bayesianas).

Por que usar métodos frequentistas e bayesianos?

Considere um caso em que o tratamento não tem efeito comparado ao controle ou um caso em que o tratamento é idêntico ao controle (um teste A/A). Você ainda perceberia uma pequena diferença entre o tratamento e o controle nos dados. Isso ocorre porque os participantes do teste consistem em uma amostra finita de usuários, representando uma pequena porcentagem de todos os usuários do site, serviço ou aplicação. Os níveis de significância frequentista e as probabilidades bayesianas informam se a diferença observada é significativa ou se ocorreu devido ao acaso.

O Evidently considera o seguinte para determinar se a diferença observada é significativa:

  • Se a diferença é grande

  • Quantas amostras compõem o teste

  • Como os dados estão distribuídos

Análise frequentista no Evidently

O Evidently usa testes sequenciais, que evitam os problemas comuns de olhada rápida, uma armadilha comum das estatísticas frequentistas. A olhada rápida é a prática de verificar os resultados de um teste A/B em andamento para interrompê-lo e tomar uma decisão com base nos resultados observados. Para obter mais informações sobre testes sequenciais, consulte Time-uniform, nonparametric, nonasymptotic confidence sequences (Sequências de confiança uniformes, não paramétricas e não assintóticas) por Howard et al. (Ann. Statist. 49 (2) 1055 - 1080, 2021).

Como os resultados do Evidently são válidos a qualquer momento (resultados válidos a qualquer momento), você pode dar uma olhada rápida nos resultados durante o experimento e ainda tirar conclusões sólidas. Isso pode reduzir alguns dos custos da experimentação, pois é possível interromper um experimento antes do horário programado se os resultados já forem significativos.

O Evidently gera níveis de significância válidos a qualquer momento e intervalos de confiança de 95% válidos a qualquer momento da diferença entre a variação testada e a variação padrão na métrica de destino. A coluna Result (Resultado) nos resultados do experimento indica a performance de variação testada, que pode ser:

  • Inconclusive (Inconclusiva): o nível de significância é inferior a 95%

  • Better (Melhor): o nível de significância é de 95% ou mais e uma das seguintes situações é verdadeira:

    • O limite inferior do intervalo de confiança de 95% é maior que zero, e a métrica deve aumentar

    • O limite superior do intervalo de confiança de 95% é menor que zero, e a métrica deve diminuir

  • Worse (Pior): o nível de significância é de 95% ou mais e uma das seguintes situações é verdadeira:

    • O limite superior do intervalo de confiança de 95% é maior que zero, e a métrica deve aumentar

    • O limite inferior do intervalo de confiança de 95% é menor que zero, e a métrica deve diminuir

  • Best (A melhor): o experimento tem duas ou mais variações testadas, além da variação padrão, e as seguintes condições são atendidas:

    • A variação se qualifica para a designação Better (A melhor)

    • Um dos valores a seguir é verdadeiro:

      • O limite inferior do intervalo de confiança de 95% é maior do que o limite superior dos intervalos de confiança de 95% de todas as outras variações, e a métrica deve aumentar

      • O limite superior do intervalo de confiança de 95% é menor do que o limite inferior dos intervalos de confiança de 95% de todas as outras variações, e a métrica deve diminuir

Análise bayesiana no Evidently

Com a análise bayesiana, é possível calcular a probabilidade de que a média na variação testada seja maior ou menor do que a média na variação padrão. O Evidently realiza inferência bayesiana para a média da métrica de destino usando prioris conjugadas. Com prioris conjugadas, o Evidently pode inferir com mais eficiência a distribuição posterior necessária para a análise bayesiana.

O Evidently espera até a data final do experimento para computar os resultados da análise bayesiana. A página de resultados exibe o seguinte:

  • probabilidade de aumento: a probabilidade de que a média da métrica na variação testada seja pelo menos 3% maior do que a média na variação padrão

  • probabilidade de diminuição: a probabilidade de que a média da métrica na variação testada seja pelo menos 3% menor do que a média na variação padrão

  • probabilidade de nenhuma alteração: a probabilidade de que a média da métrica na variação testada esteja entre mais ou menos 3% da média na variação padrão

A coluna Result (Resultado) indica a performance de variação e pode ser:

  • Better (Melhor): a probabilidade de aumento é de pelo menos 90%, e a métrica deve aumentar, ou a probabilidade de diminuição é de pelo menos 90%, e a métrica deve diminuir

  • Worse (Pior): a probabilidade de diminuição é de pelo menos 90%, e a métrica deve aumentar, ou a probabilidade de diminuição é de pelo menos 90%, e a métrica deve diminuir