Comment Evidently calcule les résultats - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comment Evidently calcule les résultats

Important

Avis de fin de support : le 16 octobre 2025, le support d' CloudWatch Evidently AWS sera interrompu. Après le 16 octobre 2025, vous ne pourrez plus accéder à la console Evidently ni aux ressources d'Evidently.

Vous pouvez utiliser les tests A/B d'Amazon CloudWatch Evidently comme outil de prise de décision basée sur les données. Dans un test A/B, les utilisateurs sont affectés de manière aléatoire soit au groupe de contrôle (également appelé la variation par défaut), soit à l'un des groupes de traitement (également appelés les variations testées). Par exemple, les utilisateurs du groupe de contrôle peuvent utiliser le site Web, le service ou l'application de la même manière qu'avant le début de l'expérience. Pendant ce temps, les utilisateurs du groupe de traitement peuvent remarquer le changement.

CloudWatch Supporte évidemment jusqu'à cinq variantes différentes dans une expérience. Evidently affecte aléatoirement le trafic à ces variations. De cette façon, vous pouvez suivre les métriques commerciales (telles que les revenus) et les métriques de performance (telles que la latence) pour chaque groupe. Evidently effectue les opérations suivantes :

  • Il compare le traitement avec le contrôle. (Par exemple, il compare si les revenus augmentent ou diminuent avec un nouveau processus de paiement.)

  • Il indique si la différence observée entre le traitement et le contrôle est significative. Pour cela, Evidently propose deux approches : les niveaux de signification fréquentistes et les probabilités bayésiennes.

Pourquoi utiliser les approches fréquentiste et bayésienne ?

Considérons un cas où le traitement n'a aucun effet par rapport au contrôle, ou un cas où le traitement est identique au contrôle (un test A/A). Vous observeriez toujours une petite différence entre le traitement et le contrôle dans les données. Cela est dû au fait que les participants au test sont constitués d'un échantillon fini d'utilisateurs, représentant un petit pourcentage de tous les utilisateurs du site Web, du service ou de l'application. Les niveaux de signification fréquentistes et les probabilités bayésiennes permettent de savoir si la différence observée est significative ou due au hasard.

Evidently prend en compte les éléments suivants pour déterminer si la différence observée est significative :

  • L'ampleur de la différence

  • Le nombre d'échantillons dans le test

  • La manière dont les données sont distribuées

Analyse fréquentiste dans Evidently

Evidently utilise des tests séquentiels, ce qui permet d'éviter les problèmes habituels de peeking (coup d'oeil), un écueil courant des statistiques fréquentistes. Le peeking est la pratique qui consiste à vérifier les résultats d'un test A/B en cours afin de l'arrêter et de prendre une décision en fonction des résultats observés. Pour plus d'informations sur les tests séquentiels, consultez Time-uniform, nonparametric, nonasymptotic confidence sequences par Howard et autres. (Ann. Statist. 49 (2) 1055 - 1080, 2021).

Comme les résultats d'Evidently sont valides à tout moment (résultats anytime-valid), vous pouvez jeter un coup d'œil aux résultats pendant l'expérience et continuer à tirer des conclusions solides. Cela peut réduire certains coûts de l'expérimentation, car vous pouvez arrêter une expérience avant l'heure prévue si les résultats sont déjà significatifs.

Evidently génère des niveaux de signification valides à tout moment et des intervalles de confiance à 95 % valides à tout moment de la différence entre la variation testée et la variation par défaut de la métrique cible. La colonne Result (Résultat) des résultats de l'expérience indique la performance de la variation testée, qui peut être l'une des suivantes :

  • Inconclusive (Non concluant) : le niveau de signification est inférieur à 95 %

  • Better (Mieux) : le niveau de signification est de 95 % ou plus et l'un des éléments suivants est vrai :

    • La limite inférieure de l'intervalle de confiance à 95 % est supérieure à zéro et la métrique doit augmenter

    • La limite supérieure de l'intervalle de confiance à 95 % est inférieure à zéro et la métrique doit diminuer

  • Worse (Pire) : le niveau de signification est de 95 % ou plus et l'une des situations suivantes est vraie :

    • La limite supérieure de l'intervalle de confiance à 95 % est supérieure à zéro et la métrique doit augmenter

    • La limite inférieure de l'intervalle de confiance à 95 % est inférieure à zéro et la métrique doit diminuer

  • Best (Meilleur) : l'expérience comporte au moins deux variations testées en plus de la variation par défaut, et les conditions suivantes sont remplies :

    • La variation répond aux critères de la désignation Better (Mieux)

    • L'une des conditions suivantes est vraie :

      • La limite inférieure de l'intervalle de confiance à 95 % est supérieure à la limite supérieure des intervalles de confiance à 95 % de toutes les autres variations et la métrique doit augmenter

      • La limite supérieure de l'intervalle de confiance à 95 % est inférieure à la limite inférieure des intervalles de confiance à 95 % de toutes les autres variations et la métrique doit diminuer

Analyse bayésienne dans Evidently

Avec l'analyse bayésienne, vous pouvez calculer la probabilité que la moyenne dans la variation testée soit supérieure ou inférieure à la moyenne dans la variation par défaut. Evidently effectue une inférence bayésienne pour la moyenne de la métrique cible en utilisant des a priori conjugués. Avec des a priori conjugués, Evidently peut déduire plus efficacement la distribution a posteriori nécessaire à l'analyse bayésienne.

Evidently attend la date de fin de l'expérience pour calculer les résultats de l'analyse bayésienne. La page de résultats affiche les éléments suivants :

  • probability of increase (probabilité d'augmentation) : la probabilité que la moyenne de la métrique dans la variation testée soit au moins 3 % supérieure à la moyenne dans la variation par défaut

  • probability of decrease (probabilité de diminution) : la probabilité que la moyenne de la métrique dans la variation testée soit inférieure d'au moins 3 % à la moyenne dans la variation par défaut

  • probability of no change (probabilité de non-changement) : la probabilité que la moyenne de la métrique dans la variation testée se situe à ±3 % de la moyenne dans la variation par défaut

La colonne Result (Résultat) indique la performance de la variation, et peut être l'une des suivantes :

  • Better (Mieux) : la probabilité d'augmentation est d'au moins 90 % et la métrique doit augmenter, ou la probabilité de diminution est d'au moins 90 % et la métrique doit diminuer

  • Worse (Pire) : la probabilité de diminution est d'au moins 90 % et la métrique doit augmenter, ou la probabilité d'augmentation est d'au moins 90 % et la métrique doit diminuer