访问分析数据
SMDebug TrainingJob
类从保存系统和框架指标的 S3 存储桶中读取数据。
设置 TrainingJob
对象并检索训练作业的分析事件文件
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示
您需要指定 training_job_name
和 region
参数以记录到训练作业。有两种方法可以指定训练作业信息:
-
在估算器仍附加到训练作业时,使用 SageMaker Python SDK。
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
直接传递字符串。
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
注意
默认情况下,SageMaker Debugger 会收集系统指标以监控硬件资源利用率和系统瓶颈。运行以下函数时,您可能会收到有关框架指标不可用的错误消息。要检索框架分析数据并深入了解框架操作,您必须启用框架分析。
-
如果您使用 SageMaker Python SDK 来操作训练作业请求,请将
framework_profile_params
传递到您估算器的profiler_config
参数。要了解更多信息,请参阅配置 SageMaker Debugger 框架分析。 -
如果您使用 Studio Classic,请使用 Debugger Insights 控制面板中的分析切换按钮。要了解更多信息,请参阅 SageMaker Debugger Insights 控制面板控制器。
检索训练作业的描述和保存指标数据的 S3 存储桶 URI
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
检查 S3 URI 中是否有系统和框架指标可用
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
在指标数据可用后创建系统和框架阅读器对象
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
刷新和检索最新的训练事件文件
阅读器对象具有扩展的方法 refresh_event_file_list()
,用于检索最新的训练事件文件。
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()