In che modo Evidently calcola i risultati - Amazon CloudWatch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

In che modo Evidently calcola i risultati

Puoi utilizzare Amazon CloudWatch Evidently A/B testing come strumento per prendere decisioni basate sui dati. In un test A/B, gli utenti vengono assegnati in modo casuale al gruppo di controllo (chiamato anche variante predefinita) o a uno dei gruppi di trattamento (chiamato anche variante testata). Ad esempio, gli utenti del gruppo di controllo potrebbero utilizzare il sito Web, il servizio o l'applicazione nello stesso modo in cui lo facevano prima dell'inizio dell'esperimento. Al contempo, gli utenti del gruppo di trattamento potrebbero notare un cambiamento.

CloudWatch Evidentemente supporta fino a cinque diverse varianti in un esperimento. Evidently assegna il traffico a queste varianti in modo casuale. In questo modo, puoi tenere traccia dei parametri aziendali (ad esempio, il fatturato) e delle prestazioni (ad esempio, la latenza) per ogni gruppo. Evidently esegue le operazioni seguenti:

  • Confronta il trattamento con il controllo. Ad esempio, puoi verificare se il fatturato aumenta o diminuisce con una nuova procedura di checkout.

  • Indica se la differenza osservata tra il trattamento e il controllo è significativa. A tal fine, Evidently offre due approcci: livelli di significatività frequentista e probabilità bayesiane.

Perché usare gli approcci frequentisti e bayesiani?

Immagina come esempio un caso in cui il trattamento non ha alcun effetto sul controllo o un esempio in cui il trattamento è identico al controllo (ad esempio, un test A/A). Osserveresti in ogni caso una piccola differenza tra i dati del trattamento e quelli del controllo. Questo perché i partecipanti al test sono costituiti da un campione finito di utenti, che rappresenta una piccola percentuale di tutti gli utenti del sito Web, del servizio o dell'applicazione. I livelli di significatività frequentista e le probabilità bayesiane consentono di comprendere, tramite informazioni dettagliate, se la differenza osservata è significativa o dovuta al caso.

Per determinare se la differenza osservata è significativa o meno, Evidently prende in considerazione gli elementi seguenti:

  • L'entità della differenza

  • Il numero di campioni che fanno parte del test

  • Il modo in cui vengono distribuiti i dati

Analisi frequentista in Evidently

Evidently utilizza i test sequenziali in modo da evitare le problematiche legate al peeking, un errore comune delle statistiche frequentiste. Con peeking si intende la pratica di controllare i risultati di un test A/B in corso per interromperlo e prendere una decisione in base ai risultati osservati. Per ulteriori informazioni sui test sequenziali, consulta l'articolo Time-uniform, nonparametric, nonasymptotic confidence sequences (Sequenze di intervalli di confidenza non asintotici, non parametrici e uniformi nel tempo) di Howard e altri autori. (Ann. Statist. 49 (2) 1055 - 1080, 2021).

Dal momento che i risultati di Evidently sono validi in qualsiasi momento (risultati validi in qualsiasi momento), puoi visualizzarli durante l'esperimento e trarre comunque conclusioni valide. Ciò consente di ridurre alcuni costi correlati alla sperimentazione, dal momento che è possibile interrompere un esperimento prima della scadenza prevista se i risultati sono già significativi.

Evidently genera livelli di significatività validi in qualsiasi momento e intervalli di confidenza del 95% validi in qualsiasi momento per la differenza tra la variante testata e la variante predefinita nel parametro target. La colonna Result (Risultato) dell'esperimento indica le prestazioni della variante testata e può presentare uno dei valori seguenti:

  • Inconclusive (Inconcludente): il livello di significatività è inferiore al 95%

  • Better (Meglio): il livello di significatività è pari o superiore al 95% e una delle seguenti condizioni è vera:

    • Il limite inferiore dell'intervallo di confidenza del 95% è superiore a zero e il parametro dovrebbe aumentare

    • Il limite superiore dell'intervallo di confidenza del 95% è inferiore a zero e il parametro dovrebbe diminuire

  • Worse (Peggio): il livello di significatività è pari o superiore al 95% e una delle seguenti condizioni è vera:

    • Il limite superiore dell'intervallo di confidenza del 95% è superiore a zero e il parametro dovrebbe aumentare

    • Il limite inferiore dell'intervallo di confidenza del 95% è inferiore a zero e il parametro dovrebbe diminuire

  • Best (Migliore): l'esperimento presenta due o più varianti testate oltre alla variante predefinita e le condizioni seguenti sono soddisfatte:

    • La variante è idonea per la designazione Better (Meglio)

    • Una delle condizioni seguenti è vera:

      • Il limite inferiore dell'intervallo di confidenza del 95% è maggiore del limite superiore degli intervalli di confidenza al 95% di tutte le altre varianti e il parametro dovrebbe aumentare

      • Il limite superiore dell'intervallo di confidenza del 95% è minore del limite inferiore degli intervalli di confidenza al 95% di tutte le altre varianti e il parametro dovrebbe diminuire

Analisi bayesiana in Evidently

Con l'analisi bayesiana puoi calcolare la probabilità che la media nella variante testata sia maggiore o minore della media nella variante predefinita. Evidently esegue l'inferenza bayesiana per la media del parametro target utilizzando i priori coniugati. Grazie ai priori coniugati, Evidently può dedurre in modo più efficiente la distribuzione posteriore necessaria per l'analisi bayesiana.

Evidently attende la data di fine dell'esperimento per calcolare i risultati dell'analisi bayesiana. La pagina dei risultati mostra quanto segue:

  • probabilità di aumento: la probabilità che la media del parametro nella variante testata sia superiore di almeno il 3% rispetto alla media nella variante predefinita

  • probabilità di diminuzione: la probabilità che la media del parametro nella variante testata sia inferiore di almeno il 3% rispetto alla media nella variante predefinita

  • probabilità di invarianza: la probabilità che la media del parametro nella variante testata si trovi entro il ±3% della media della variante predefinita

La colonna Result (Risultato) indica le prestazioni della variante e può presentare uno dei valori seguenti:

  • Better (Meglio): la probabilità di aumento è almeno del 90% e il parametro dovrebbe aumentare oppure la probabilità di diminuzione è almeno del 90% e il parametro dovrebbe diminuire

  • Worse (Peggio): la probabilità di diminuzione è almeno del 90% e il parametro dovrebbe aumentare oppure la probabilità di aumento è almeno del 90% e il parametro dovrebbe diminuire