Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Acceso a los datos del perfil
La clase TrainingJob
de SMDebug lee los datos del bucket de S3 donde se guardan las métricas del sistema y del marco.
Para configurar un objeto TrainingJob
y recuperar los archivos de eventos de creación de perfiles de un trabajo de entrenamiento
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
sugerencia
Debe especificar los parámetros training_job_name
y region
para iniciar sesión en un trabajo de entrenamiento. Hay dos formas de especificar la información del trabajo de entrenamiento:
-
Utilice el SDK de SageMaker Python mientras el estimador aún esté adjunto al trabajo de formación.
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
Pasar las cadenas directamente.
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
nota
De forma predeterminada, SageMaker Debugger recopila las métricas del sistema para monitorear la utilización de los recursos de hardware y los cuellos de botella del sistema. Al ejecutar las siguientes funciones, es posible que reciba mensajes de error relacionados con la falta de disponibilidad de las métricas del marco. Para recuperar los datos de creación de perfiles del marco y obtener información sobre las operaciones de este, debe habilitar la creación de perfiles del marco.
-
Si utilizas el SDK de SageMaker Python para manipular tu solicitud de trabajo de formación, pasa el
profiler_config
argumentoframework_profile_params
al de tu estimador. Para obtener más información, consulte Configurar la creación de perfiles de SageMaker Debugger Framework. -
Si usa Studio Classic, active la creación de perfiles con el botón de activación de perfiles del panel de información sobre Debugger Insights. Para obtener más información, consulte SageMaker Debugger Insights Dashboard Controller.
Para recuperar una descripción del trabajo de entrenamiento y el URI del bucket de S3 en el que se guardan los datos de las métricas
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
Para comprobar si las métricas del sistema y del marco están disponibles en el URI de S3
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
Para crear objetos lectores del sistema y del marco cuando los datos de las métricas estén disponibles
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
Para actualizar y recuperar los archivos de eventos de entrenamiento más recientes
Los objetos lectores tienen un método extendido (refresh_event_file_list()
) para recuperar los archivos de eventos de entrenamiento más recientes.
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()