Dérive de biais pour les modèles en production - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dérive de biais pour les modèles en production

La surveillance des biais d'Amazon SageMaker Clarify aide les data scientists et les ingénieurs du ML à surveiller régulièrement les prédictions pour détecter les biais. Au fur et à mesure que le modèle est surveillé, les clients peuvent consulter des rapports et des graphiques exportables détaillant le biais dans SageMaker Studio et configurer des alertes dans Amazon CloudWatch pour recevoir des notifications en cas de détection d'un biais supérieur à un certain seuil. Un biais peut être introduit ou exacerbé dans les modèles ML déployés lorsque les données d'entraînement diffèrent des données vues par le modèle pendant le déploiement (c'est-à-dire les données actives). Ces types de changements dans la distribution des données actives peuvent être temporaires (dans le cas d'événements réels de courte durée, par exemple) ou permanents. Dans les deux cas, il peut être important de détecter ces changements. Par exemple, les sorties d'un modèle de prédiction des prix des maisons peuvent devenir biaisées si les taux hypothécaires utilisés pour entraîner le modèle ne correspondent pas aux taux hypothécaires réels du moment. Grâce aux fonctionnalités de détection de biais de Model Monitor, lorsqu'un biais est SageMaker détecté au-delà d'un certain seuil, il génère automatiquement des métriques que vous pouvez consulter dans SageMaker Studio et via les CloudWatch alertes Amazon.

En général, mesurer le biais uniquement pendant la train-and-deploy phase peut ne pas être suffisant. Il est possible qu'une fois le modèle déployé, la distribution des données vue par le modèle déployé (c'est-à-dire les données actives) diffère de celle du jeu de données d'entraînement. Avec le temps, ce changement peut introduire un biais dans un modèle. Le changement dans la distribution des données actives peut être temporaire (dans le cas d'un événement de courte durée, la période des fêtes par exemple) ou permanent. Dans les deux cas, il peut être important de détecter ces changements et de prendre éventuellement des mesures pour réduire le biais.

Pour détecter ces changements, SageMaker Clarify fournit des fonctionnalités permettant de surveiller en permanence les mesures de biais d'un modèle déployé et de déclencher des alertes automatisées si les mesures dépassent un seuil. Par exemple, considérez la métrique de DPPL biais. Spécifiez une plage de valeurs autorisée A= (amin​, amax​), par exemple un intervalle de (-0,1, 0,1), à laquelle DPPL doit appartenir pendant le déploiement. Tout écart par rapport à cette plage doit déclencher une alerte de biais détecté. Avec SageMaker Clarify, vous pouvez effectuer ces contrôles à intervalles réguliers.

Par exemple, vous pouvez définir la fréquence des vérifications sur 2 jours. Cela signifie que SageMaker Clarify calcule la DPPL métrique sur les données collectées pendant une période de 2 jours. Dans cet exemple, Dwin désigne les données traitées par le modèle sur la dernière fenêtre de 2 jours. Une alerte est émise si la DPPL valeur b win​ calculée sur D win​ se situe en dehors d'une plage autorisée A. Cette approche visant à vérifier si b win est en dehors de A peut être quelque peu bruyante. Dwin​ peut comprendre très peu d'échantillons et ne pas représenter précisément la distribution des données actives. Le faible nombre d'échantillons signifie que la valeur d'estimation du biais bwin​ calculée sur Dwin​ peut ne pas être très robuste. En fait, l'observation de valeurs très élevées (ou très faibles) de bwin peut être le simple fruit du hasard. Pour s'assurer que les conclusions tirées des données observées D win sont statistiquement significatives, SageMaker Clarify utilise des intervalles de confiance. Plus précisément, il utilise la méthode de l'intervalle Bootstrap normal pour construire un intervalle C= (cmin, cmax) de telle sorte que SageMaker Clarify soit sûr que la vraie valeur de biais calculée sur l'ensemble des données en direct est contenue dans C avec une probabilité élevée. Désormais, si l'intervalle de confiance C chevauche la plage autorisée A, SageMaker Clarify l'interprète comme « il est probable que la valeur métrique de biais de la distribution des données en temps réel se situe dans la plage autorisée ». Si C et A sont disjoints, SageMaker Clarify est sûr que la métrique de biais ne se trouve pas dans A et déclenche une alerte.

Exemples de blocs-notes Model Monitor

Amazon SageMaker Clarify fournit l'exemple de carnet suivant qui montre comment capturer des données d'inférence pour un point de terminaison en temps réel, créer une base de référence pour surveiller l'évolution des biais et inspecter les résultats :

Il a été vérifié que ce bloc-notes fonctionne uniquement dans Amazon SageMaker Studio. Si vous avez besoin d'instructions pour ouvrir un bloc-notes dans Amazon SageMaker Studio, consultezCréation ou ouverture d'un bloc-notes Amazon SageMaker Studio Classic. Si vous êtes invité à choisir un noyau, choisissez Python 3 (Data Science). Les rubriques suivantes contiennent les éléments principaux des deux dernières étapes, ainsi que des exemples de code tirés de l'exemple de bloc-notes.