Accès aux données du profil - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Accès aux données du profil

La SMDebug TrainingJob classe lit les données du compartiment S3 dans lequel les métriques du système et du framework sont enregistrées.

Pour configurer un objet TrainingJob et récupérer les fichiers d'événements de profilage d'une tâche d'entraînement

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Astuce

Vous devez spécifier les paramètres training_job_name et region pour vous connecter à une tâche d'entraînement. Il existe deux façons de spécifier les informations sur les tâches d'entraînement :

  • Utilisez le SageMaker Python SDK pendant que l'estimateur est toujours attaché à la tâche de formation.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passez les chaînes directement.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
Note

Par défaut, SageMaker Debugger collecte les métriques du système pour surveiller l'utilisation des ressources matérielles et les goulots d'étranglement du système. En exécutant les fonctions suivantes, vous pouvez recevoir des messages d'erreur concernant l'indisponibilité des métriques du framework. Pour récupérer les données de profilage du framework et obtenir des informations sur les opérations du cadre, vous devez en activer le profilage.

Pour récupérer une description de la description du poste de formation et du compartiment S3 URI dans lequel les données métriques sont enregistrées

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Pour vérifier si les métriques du système et du framework sont disponibles depuis le S3 URI

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Pour créer des objets de lecteur de système et de framework une fois que les données de métriques sont disponibles

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Pour actualiser et récupérer les derniers fichiers d'événements d'entraînement

Les objets du lecteur ont une méthode étendue, refresh_event_file_list(), afin de récupérer les fichiers les plus récents des événements d'entraînement.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()