Création d'une référence - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'une référence

Les calculs de référence des statistiques et des contraintes sont nécessaires en tant que norme pour savoir quels problèmes d'écarts des données et autres problèmes de qualité peuvent être détectés. Model Monitor fournit un conteneur intégré qui permet de suggérer automatiquement les contraintes pour une CSV JSON saisie à plat. Ce sagemaker-model-monitor-analyzerconteneur vous fournit également une gamme de fonctionnalités de surveillance des modèles, notamment la validation des contraintes par rapport à une référence et l'émission de CloudWatch métriques Amazon. Ce conteneur est basé sur Spark version 3.3.0 et est construit avec Deequ version 2.0.2. Tous les noms de colonnes de votre jeu de données de référence doivent être conformes à Spark. Pour les noms de colonnes, utilisez uniquement des minuscules et _ comme caractère spécial.

Le jeu de données d'entraînement utilisé pour entraîner le modèle est généralement un bon jeu de données de référence. Les schémas du jeu de données d'entraînement et de l'ensemble de données d'inférence doivent correspondre exactement (nombre et ordre des fonctions). Les colonnes de prédiction/sortie sont censées être les premières colonnes du jeu de données d'entraînement. À partir de l'ensemble de données d'entraînement, vous pouvez SageMaker demander de suggérer un ensemble de contraintes de base et de générer des statistiques descriptives pour explorer les données. Pour cet exemple, chargez l'ensemble des données d'entraînement qui a servi à entraîner le modèle préentraîné inclus. Si vous avez déjà stocké le jeu de données d'entraînement dans Amazon S3, vous pouvez pointer directement dessus.

Pour créer une référence à partir d'un jeu de données d'entraînement

Lorsque vos données d'entraînement sont prêtes et stockées dans Amazon S3, lancez une tâche de traitement de base à DefaultModelMonitor.suggest_baseline(..) l'aide d'Amazon SageMaker Python SDK. Un Conteneur préfabriqué Amazon SageMaker Model Monitor est alors utilisé afin de générer des statistiques de référence et de suggérer des contraintes de référence pour le jeu de données, puis de les écrire à l'emplacement output_s3_uri que vous spécifiez.

from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
Note

Si vous indiquez les noms des entités ou des colonnes dans le jeu de données d'apprentissage en tant que première ligne et que vous définissez l'header=Trueoption comme indiqué dans l'exemple de code précédent, utilisez le nom SageMaker de la fonctionnalité dans le fichier de contraintes et de statistiques.

Les statistiques de référence du jeu de données sont contenues dans le fichier statistics.json et les contraintes de référence suggérées sont contenues dans le fichier constraints.json à l'emplacement que vous spécifiez avec output_s3_uri.

Fichiers de sortie pour les statistiques et les contraintes du jeu de données tabulaires

Nom de fichier Description
statistics.json

Ce fichier doit comporter des statistiques en colonnes pour chaque fonction du jeu de données analysé. Pour de plus amples informations sur le schéma de ce fichier, veuillez consulter Schéma des statistiques (fichier statistics.json).

constraints.json

Dans ce fichier, les contraintes sur les fonctions doivent être observées. Pour de plus amples informations sur le schéma de ce fichier, veuillez consulter Schéma des contraintes (fichier constraints.json).

Amazon SageMaker Python SDK fournit des fonctions pratiques décrites pour générer les statistiques et les contraintes de base. Si vous voulez toutefois appeler la tâche de traitement directement à cette fin, vous devez définir le mappage Environment comme dans l'exemple ci-après :

"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }