访问分析数据 - Amazon SageMaker

访问分析数据

SMDebug TrainingJob 类从保存系统和框架指标的 S3 存储桶中读取数据。

设置 TrainingJob 对象并检索训练作业的分析事件文件

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示

您需要指定 training_job_nameregion 参数以记录到训练作业。有两种方法可以指定训练作业信息:

  • 在估算器仍附加到训练作业时,使用 SageMaker Python SDK。

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • 直接传递字符串。

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
注意

默认情况下,SageMaker Debugger 会收集系统指标以监控硬件资源利用率和系统瓶颈。运行以下函数时,您可能会收到有关框架指标不可用的错误消息。要检索框架分析数据并深入了解框架操作,您必须启用框架分析。

检索训练作业的描述和保存指标数据的 S3 存储桶 URI

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

检查 S3 URI 中是否有系统和框架指标可用

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

在指标数据可用后创建系统和框架阅读器对象

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

刷新和检索最新的训练事件文件

阅读器对象具有扩展的方法 refresh_event_file_list(),用于检索最新的训练事件文件。

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()