Calcul de référence, détection de la dérive et cycle de vie avec Amazon SageMaker Pipelines ClarifyCheck et QualityCheck étapes - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Calcul de référence, détection de la dérive et cycle de vie avec Amazon SageMaker Pipelines ClarifyCheck et QualityCheck étapes

La rubrique suivante explique comment les lignes de base et les versions des modèles évoluent dans les Amazon SageMaker Pipelines lors de l'utilisation des QualityCheck étapes ClarifyCheck et.

Pour l'étape ClarifyCheck, une référence est un fichier unique qui se trouve dans les propriétés de l'étape avec le suffixe constraints. Pour l'étape QualityCheck, une référence est une combinaison de deux fichiers qui se trouve dans les propriétés de l'étape : l'un avec le suffixe statistics, et l'autre avec le suffixe constraints. Dans les rubriques suivantes, nous abordons ces propriétés avec un préfixe qui décrit comment elles sont utilisées, en influençant le comportement de la référence et le cycle de vie dans ces deux étapes de pipeline. Par exemple, l'étape ClarifyCheck calcule et affecte toujours les nouvelles références dans la propriété CalculatedBaselineConstraints et l'étape QualityCheck fait la même chose dans les propriétés CalculatedBaselineConstraints et CalculatedBaselineStatistics.

Calcul de base, enregistrement ClarifyCheck et QualityCheck étapes

Les étapes ClarifyCheck et QualityCheck calculent toutes deux toujours les nouvelles références en fonction des entrées d'étape dans l'exécution de la tâche de traitement sous-jacente. Ces références recalculées sont accessibles via les propriétés avec le préfixe CalculatedBaseline. Vous pouvez enregistrer ces propriétés en tant que ModelMetrics de votre package modèle dans l'étape Étape du modèle. Ce modèle peut être enregistré avec 5 références différentes. Vous pouvez l'enregistrer avec une référence pour chaque type de contrôle : biais de données, biais de modèle et explicabilité de modèle à partir de l'exécution de l'étape ClarifyCheck et de la qualité de modèle et qualité des données à partir de l'exécution de l'étape QualityCheck. Le paramètre register_new_baseline dicte la valeur définie dans les propriétés avec le préfixe BaselineUsedForDriftCheck après l'exécution d'une étape.

Le tableau suivant des cas d'utilisation potentiels montre les différents comportements résultant des paramètres d'étape que vous pouvez définir pour les étapes ClarifyCheck et QualityCheck :

Cas d'utilisation possible que vous pouvez prendre en compte pour sélectionner cette configuration skip_check / register_new_baseline L'étape effectue-t-elle une vérification de dérive ? Valeur de la propriété d'étape CalculatedBaseline Valeur de la propriété d'étape BaselineUsedForDriftCheck

Vous effectuez un nouvel entraînement régulier avec vérifications activées pour obtenir une nouvelle version de modèle, mais vous souhaitez reporter des références précédentes comme DriftCheckBaselines dans le registre de modèles pour votre nouvelle version de modèle.

False/ False La vérification de dérive est exécutée par rapport aux références existantes Nouvelles références calculées en exécutant l'étape Référence du dernier modèle approuvé dans le registre des modèles ou référence fournie en tant que paramètre d'étape

Vous effectuez un nouvel entraînement régulier avec vérifications activées pour obtenir une nouvelle version de modèle, mais vous souhaitez actualiser les DriftCheckBaselines dans le registre de modèles avec les références recalculées pour votre nouvelle version de modèle.

False/ True La vérification de dérive est exécutée par rapport aux références existantes Nouvelles références calculées en exécutant l'étape Référence recalculée en exécutant l'étape (valeur de la propriété CalculatedBaseline)

Vous lancez le pipeline de recyclage d'une nouvelle version de modèle car une violation a été détectée par Amazon SageMaker Model Monitor sur un terminal pour un type de contrôle particulier, et vous souhaitez ignorer ce type de vérification par rapport à la référence précédente, mais conserver la référence précédente comme DriftCheckBaselines dans le registre des modèles de votre nouvelle version de modèle.

True/ False Pas de vérification de dérive Nouvelles références calculées par l'exécution Référence du dernier modèle approuvé dans le registre des modèles ou référence fournie en tant que paramètre d'étape
Une telle situation se produit dans les cas suivants :
  • Vous démarrez la première exécution du pipeline, qui crée votre première version du modèle, et génère les références initiales.

  • Vous lancez le pipeline pour entraîner de nouveau une nouvelle version de modèle, car une violation est détectée par Model Monitor sur le point de terminaison pour un type particulier de vérification. Si vous souhaitez ignorer la vérification par rapport aux références précédentes et actualiser les DriftCheckBaselines avec les références nouvellement recalculées directement dans le registre des modèles.

True/ True Pas de vérification de dérive Nouvelles références calculées en exécutant l'étape Référence recalculée en exécutant l'étape (valeur de la propriété CalculatedBaseline)
Note

Si vous utilisez la notation scientifique dans votre contrainte, vous devez la convertir en nombre flottant. Pour obtenir un exemple de script de prétraitement montrant la façon de procéder, veuillez consulter Créer une tâche de référence de qualité des modèles.

Lorsque vous enregistrez un modèle avec l'interface Étape du modèle, vous pouvez enregistrer la propriété BaselineUsedForDriftCheck en tant que DriftCheckBaselines. Ces fichiers de référence peuvent ensuite être utilisés par Model Monitor pour les vérifications de qualité des modèles et des données. En outre, ces lignes de base peuvent également être utilisées dans l'QualityCheckétape ClarifyCheckStep and pour comparer les modèles nouvellement entraînés aux modèles existants enregistrés dans le registre des modèles pour les futurs cycles de pipeline.

Détection de la dérive par rapport aux lignes de base précédentes dans les pipelines

Dans le cas de l'étape QualityCheck, lorsque vous lancez le pipeline pour un nouvel entraînement régulier afin d'obtenir une nouvelle version de modèle, vous ne devez peut-être pas exécuter l'étape d'entraînement si la qualité des données et le biais des données ont Schéma des violations (fichier constraint_violations.json) sur les références de votre version de modèle approuvée précédente. Il se peut également que vous ne deviez pas enregistrer la version du modèle nouvellement entraîné si la qualité du modèle, le biais du modèle ou l'explicabilité du modèle enfreint la référence enregistrée de votre version de modèle approuvée précédente lors de l'exécution de l'étape ClarifyCheck. Dans ces cas, vous pouvez activer les vérifications que vous souhaitez en définissant la propriété skip_check de l'étape de vérification correspondante sur False, afin d'entraîner l'échec des étapes ClarifyCheck et QualityCheck si une violation est détectée par rapport aux références précédentes. Le processus de pipeline ne se poursuit donc pas, de sorte que le modèle dérivé de la référence ne soit pas enregistré. Les étapes ClarifyCheck et QualityCheck sont capables d'obtenir les DriftCheckBaselines de la dernière version de modèle approuvée d'un groupe de modèles donné pour effectuer la comparaison. Les références précédentes peuvent également être fournies directement via les supplied_baseline_constraints (en plus des supplied_baseline_statistics s'il s'agit d'une étape QualityCheck) et sont toujours prioritaires par rapport à toutes les références extraites du groupe de package de modèles.

Cycle de vie et évolution des versions de référence et de modèle avec Pipelines

En définissant la register_new_baseline de vos étapes ClarifyCheck et QualityCheck sur False, votre configuration de référence précédente est accessible via le préfixe de la propriété d'étape BaselineUsedForDriftCheck. Vous pouvez ensuite enregistrer ces lignes de base en tant que DriftCheckBaselines dans la nouvelle version du modèle lorsque vous enregistrez un modèle auprès de Étape du modèle. Une fois que vous avez approuvé cette nouvelle version de modèle dans le registre de modèles, la DriftCheckBaseline de cette version de modèle devient disponible pour les étapes ClarifyCheck et QualityCheck du prochain processus de pipeline. Si vous souhaitez actualiser la référence d'un type de vérification précis pour les futures versions de modèle, vous pouvez définir register_new_baseline sur True de sorte que les propriétés avec le préfixe BaselineUsedForDriftCheck deviennent la référence recalculée. Ainsi, vous pouvez conserver vos références préférées pour un modèle qui sera entraîné à l'avenir, ou actualiser les références pour les vérifications de dérive si nécessaire, en gérant l'évolution et le cycle de vie des références tout au long de vos itérations d'entraînement de modèle.

Le schéma suivant illustre une model-version-centric vue de l'évolution et du cycle de vie de base.

model-version-centricVue de l'évolution et du cycle de vie de base.