Ergebnisberechnung von Evidently - Amazon CloudWatch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ergebnisberechnung von Evidently

Sie können Amazon CloudWatch Evidently A/B-Tests als Tool für datengestützte Entscheidungsfindung verwenden. In einem A/B-Test werden die Benutzer nach dem Zufallsprinzip entweder der Kontrollgruppe (auch Standardvariante genannt) oder einer der Behandlungsgruppen (auch getestete Variante genannt) zugewiesen. Beispielsweise könnten Benutzer in der Kontrollgruppe die Website, den Dienst oder die Anwendung auf die gleiche Weise wie vor Beginn des Experiments erleben. In der Zwischenzeit können Benutzer in der Behandlungsgruppe die Veränderung erleben.

CloudWatch Unterstützt offenbar bis zu fünf verschiedene Varianten in einem Experiment. Evidently weist diesen Varianten zufällig Traffic zu. Auf diese Weise können Sie Geschäftsmetriken (z. B. Umsatz) und Leistungsmetriken (z. B. Latenz) für jede Gruppe nachverfolgen. Evidently geht folgendermaßen vor:

  • Vergleich der Behandlung mit der Kontrolle. (Vergleicht beispielsweise, ob der Umsatz mit einem neuen Checkout-Prozess steigt oder sinkt.)

  • Gibt an, ob der beobachtete Unterschied zwischen der Behandlung und der Kontrolle signifikant ist. Dafür bietet Evidently zwei Lösungsansätze: frequentistische Signifikanzniveaus und Bayessche Wahrscheinlichkeiten.

Welche Gründe sprechen für frequentistische und Bayessche Ansätze?

Stellen Sie sich einen Fall vor, in dem die Behandlung im Vergleich zur Kontrolle keine Wirkung hat, oder einen Fall, in dem die Behandlung mit der Kontrolle identisch ist (ein A/A-Test). Sie würden immer noch einen kleinen Unterschied zwischen der Behandlung und der Kontrolle in den Daten feststellen. Dies liegt daran, dass die Gruppe der Testteilnehmer aus einer endlichen Stichprobe von Benutzern besteht, die einen kleinen Prozentsatz aller Benutzer der Website, des Service oder der Anwendung ausmachen. Frequentistische Signifikanzniveaus und Bayessche Wahrscheinlichkeiten geben Aufschluss darüber, ob der beobachtete Unterschied signifikant oder zufällig ist.

Evidently berücksichtigt die folgenden Kriterien bei der Feststellung, ob der beobachtete Unterschied signifikant ist:

  • Wie groß der Unterschied ist

  • Wie viele Proben Teil des Tests sind

  • Wie die Daten verteilt werden

Frequentistische Analyse in Evidently

Evidently verwendet sequentielle Tests, wodurch die üblichen Peeking-Probleme vermieden werden, ein häufiger Fallstrick für die frequentistische Statistik. Beim Peeking werden die Ergebnisse eines laufenden A/B-Tests überprüft, um ihn zu stoppen und auf der Grundlage der beobachteten Ergebnisse eine Entscheidung zu treffen. Weitere Informationen zu sequentiellen Tests finden Sie unter Time-uniform, nonparametric, nonasymptotic confidence sequences (Zeiteinheitliche, nicht parametrische, nicht asymptotische Konfidenzsequenzen) von Howard et al. (Ann. Statist. 49 (2) 1055–1080, 2021).

Weil die Ergebnisse von Evidently jederzeit gültig sind (jederzeit gültige Ergebnisse), können Sie sich die Ergebnisse während des Experiments ansehen („Peeking“) und trotzdem fundierte Schlussfolgerungen ziehen. Das kann einen Teil der Experimentierkosten reduzieren, da Sie ein Experiment vor dem geplanten Zeitpunkt beenden können, wenn die Ergebnisse bereits signifikant sind.

Evidently erzeugt jederzeit gültige Signifikanzniveaus und jederzeit gültige 95-%-Konfidenzintervalle der Differenz zwischen der getesteten Variante und der Standardvariante in der Zielmetrik. Die Spalte Result (Ergebnis) in den Versuchsergebnissen gibt die Leistung der getesteten Variante an. Folgende Optionen sind möglich:

  • Inconclusive (Nicht eindeutig) – Das Signifikanzniveau liegt unter 95 %

  • Better (Besser) – Das Signifikanzniveau liegt bei 95 % oder höher und eine der folgenden Aussagen trifft zu:

    • Die Untergrenze des 95-%-Konfidenzintervalls ist höher als Null und die Metrik sollte steigen

    • Die Obergrenze des 95-%-Konfidenzintervalls ist niedriger als Null und die Metrik sollte abnehmen

  • Worse (Schlechter) – Das Signifikanzniveau liegt bei 95 % oder höher und eine der folgenden Aussagen trifft zu:

    • Die Obergrenze des 95-%-Konfidenzintervalls ist höher als Null und die Metrik sollte steigen

    • Die Untergrenze des 95-%-Konfidenzintervalls ist niedriger als Null und die Metrik sollte abnehmen

  • Best (Am besten) – Das Experiment hat zusätzlich zur Standardvariante zwei oder mehr getestete Varianten, und die folgenden Bedingungen sind erfüllt:

    • Die Variante qualifiziert sich für die Bezeichnung Better (Besser)

    • Eine der folgenden Bedingungen trifft zu:

      • Die Untergrenze des 95-%-Konfidenzintervalls ist höher als die Obergrenze der 95-%-Konfidenzintervalle aller anderen Variationen, und die Metrik sollte steigen

      • Die Obergrenze des 95-%-Konfidenzintervalls ist niedriger als die Obergrenze der 95-%-Konfidenzintervalle aller anderen Variationen, und die Metrik sollte abnehmen

Bayessche Analyse in Evidently

Mit der Bayesschen Analyse können Sie die Wahrscheinlichkeit berechnen, dass der Mittelwert in der getesteten Variante größer oder kleiner als der Mittelwert der Standardvariante ist. Evidently führt eine Bayessche Inferenz für den Mittelwert der Zielmetrik durch, indem konjugierte Priore verwendet werden. Mit konjugierten Prioren kann Evidently effizienter auf die spätere Verteilung schließen, die für die Bayessche Analyse erforderlich ist.

Evidently wartet bis zum Enddatum des Experiments, um die Ergebnisse der Bayesschen Analyse zu berechnen. Auf der Ergebnisseite wird Folgendes angezeigt:

  • probability of increase (Wahrscheinlichkeit einer Erhöhung) – Die Wahrscheinlichkeit, dass der Mittelwert der Metrik in der getesteten Variante mindestens 3 % größer als der Mittelwert der Standardvariante ist

  • probability of decrease (Wahrscheinlichkeit eines Rückgangs) – Die Wahrscheinlichkeit, dass der Mittelwert der Metrik in der getesteten Variante mindestens 3 % kleiner als der Mittelwert der Standardvariante ist

  • probability of no change (Wahrscheinlichkeit keiner Änderung) – Die Wahrscheinlichkeit, dass der Mittelwert der Metrik in der getesteten Variante innerhalb von ± 3 % des Mittelwerts der Standardvariante liegt

Die Spalte Result (Ergebnis) gibt die Leistung der Variante an. Folgende Optionen sind möglich:

  • Better (Besser) – Die Wahrscheinlichkeit eines Anstiegs beträgt mindestens 90 % und die Metrik sollte steigen, oder die Wahrscheinlichkeit eines Rückgangs beträgt mindestens 90 % und die Metrik sollte abnehmen

  • Worse (Schlechter) – Die Wahrscheinlichkeit eines Rückgangs beträgt mindestens 90 % und die Metrik sollte steigen, oder die Wahrscheinlichkeit eines Anstiegs beträgt mindestens 90 % und die Metrik sollte abnehmen