Acesse os dados do perfil - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Acesse os dados do perfil

A classe TrainingJob do SMDebug lê dados do bucket do S3 em que as métricas do sistema e da estrutura são salvas.

Para configurar um objeto TrainingJob e recuperar arquivos de eventos de criação de perfil de um trabalho de treinamento

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
dica

Você precisa especificar os parâmetros training_job_name e region para se registrar em um trabalho de treinamento. Há duas maneiras de especificar as informações do trabalho de treinamento:

  • Use o SDK do SageMaker Python enquanto o estimador ainda estiver vinculado ao trabalho de treinamento.

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • Passe os strings diretamente.

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
nota

Por padrão, o SageMaker Debugger coleta métricas do sistema para monitorar a utilização dos recursos de hardware e os gargalos do sistema. Executando as funções a seguir, você pode receber mensagens de erro relacionadas à indisponibilidade das métricas da estrutura. Para recuperar dados de criação de perfil da estrutura e obter informações sobre as operações da estrutura, habilite a criação de perfil da estrutura.

  • Se você usa o SDK do SageMaker Python para manipular sua solicitação de trabalho de treinamento, transmita o framework_profile_params para o profiler_config argumento do seu estimador. Para saber mais, consulte Configurar o perfil do SageMaker Debugger Framework.

  • Se você usa o Studio Classic, ative a criação de perfil usando o botão de alternância Criação de perfil no painel de insights do Debugger. Para saber mais, consulte SageMaker Debugger Insights Dashboard Controller.

Para recuperar uma descrição da descrição do trabalho de treinamento e o URI do bucket do S3 em que os dados métricos são salvos

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

Para verificar se as métricas do sistema e da estrutura estão disponíveis no URI do S3

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

Para criar objetos de leitura do sistema e da estrutura após a disponibilização dos dados métricos

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

Para atualizar e recuperar os arquivos mais recentes do evento de treinamento

Os objetos do leitor têm um método estendido, refresh_event_file_list(), para recuperar os arquivos de eventos de treinamento mais recentes.

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()