存取分析資料 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

存取分析資料

SMDebug TrainingJob 類別會從儲存系統和架構指標的 S3 儲存貯體讀取資料。

設定 TrainingJob 物件並擷取訓練工作的效能分析事件檔案

from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示

您需要指定參數 training_job_nameregion 以記錄至訓練工作。有兩種方式可指定訓練任務資訊:

  • 在估算器仍附加至訓練工作時,請使用 SageMaker Python SDK。

    import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
  • 直接傳遞字串。

    training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
注意

根據預設, SageMaker 偵錯工具會收集系統指標,以監視硬體資源使用率和系統瓶頸。執行下列函式時,您可能會收到有關架構指標無法使用的錯誤訊息。要擷取架構設定檔資料並獲得架構操作的深入分析,您必須啟用架構分析。

擷取訓練任務描述和儲存指標資料的 S3 儲存貯體 URI

tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()

檢查系統和架構指標是否可從 S3 URI 取得

tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()

在指標資料可用之後,建立系統和架構讀取器物件

system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()

重新整理和擷取最新的訓練事件檔案

讀取器物件具有延伸方法 refresh_event_file_list(),可擷取最新的訓練事件檔案。

system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()