Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Accès aux données du profil
La SMDebug TrainingJob
classe lit les données du compartiment S3 dans lequel les métriques du système et du framework sont enregistrées.
Pour configurer un objet TrainingJob
et récupérer les fichiers d'événements de profilage d'une tâche d'entraînement
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
Astuce
Vous devez spécifier les paramètres training_job_name
et region
pour vous connecter à une tâche d'entraînement. Il existe deux façons de spécifier les informations sur les tâches d'entraînement :
-
Utilisez le SageMaker Python SDK pendant que l'estimateur est toujours attaché à la tâche de formation.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
Passez les chaînes directement.
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
Note
Par défaut, SageMaker Debugger collecte les métriques du système pour surveiller l'utilisation des ressources matérielles et les goulots d'étranglement du système. En exécutant les fonctions suivantes, vous pouvez recevoir des messages d'erreur concernant l'indisponibilité des métriques du framework. Pour récupérer les données de profilage du framework et obtenir des informations sur les opérations du cadre, vous devez en activer le profilage.
-
Si vous utilisez SageMaker Python SDK pour manipuler votre demande de tâche de formation, transmettez le
framework_profile_params
à l'profiler_config
argument de votre estimateur. Pour en savoir plus, voir Configurer le profilage du framework SageMaker Debugger. -
Si vous utilisez Studio Classic, activez le profilage à l'aide du bouton Profilage dans le tableau de bord Debugger Insights. Pour en savoir plus, consultez SageMaker Debugger Insights Dashboard Controller.
Pour récupérer une description de la description du poste de formation et du compartiment S3 URI dans lequel les données métriques sont enregistrées
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
Pour vérifier si les métriques du système et du framework sont disponibles depuis le S3 URI
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
Pour créer des objets de lecteur de système et de framework une fois que les données de métriques sont disponibles
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
Pour actualiser et récupérer les derniers fichiers d'événements d'entraînement
Les objets du lecteur ont une méthode étendue, refresh_event_file_list()
, afin de récupérer les fichiers les plus récents des événements d'entraînement.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()