Acceso a los datos del perfil - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Acceso a los datos del perfil

La clase TrainingJob de SMDebug lee los datos del bucket de S3 donde se guardan las métricas del sistema y del marco.

Para configurar un objeto TrainingJob y recuperar los archivos de eventos de creación de perfiles de un trabajo de entrenamiento

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
sugerencia

Debe especificar los parámetros training_job_name y region para iniciar sesión en un trabajo de entrenamiento. Hay dos formas de especificar la información del trabajo de entrenamiento:

  • Utilice el SDK de SageMaker Python mientras el estimador aún esté adjunto al trabajo de formación.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Pasar las cadenas directamente.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
nota

De forma predeterminada, SageMaker Debugger recopila las métricas del sistema para monitorear la utilización de los recursos de hardware y los cuellos de botella del sistema. Al ejecutar las siguientes funciones, es posible que reciba mensajes de error relacionados con la falta de disponibilidad de las métricas del marco. Para recuperar los datos de creación de perfiles del marco y obtener información sobre las operaciones de este, debe habilitar la creación de perfiles del marco.

  • Si utilizas el SDK de SageMaker Python para manipular tu solicitud de trabajo de formación, pasa el profiler_config argumento framework_profile_params al de tu estimador. Para obtener más información, consulte Configurar la creación de perfiles de SageMaker Debugger Framework.

  • Si usa Studio Classic, active la creación de perfiles con el botón de activación de perfiles del panel de información sobre Debugger Insights. Para obtener más información, consulte SageMaker Debugger Insights Dashboard Controller.

Para recuperar una descripción del trabajo de entrenamiento y el URI del bucket de S3 en el que se guardan los datos de las métricas

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Para comprobar si las métricas del sistema y del marco están disponibles en el URI de S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Para crear objetos lectores del sistema y del marco cuando los datos de las métricas estén disponibles

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Para actualizar y recuperar los archivos de eventos de entrenamiento más recientes

Los objetos lectores tienen un método extendido (refresh_event_file_list()) para recuperar los archivos de eventos de entrenamiento más recientes.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()