本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
存取分析資料
SMDebug TrainingJob
類別會從儲存系統和架構指標的 S3 儲存貯體讀取資料。
設定 TrainingJob
物件並擷取訓練工作的效能分析事件檔案
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
提示
您需要指定參數 training_job_name
和 region
以記錄至訓練工作。有兩種方式可指定訓練任務資訊:
-
在估算器仍附加至訓練工作時,請使用 SageMaker Python SDK。
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name
-
直接傳遞字串。
training_job_name="
your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS
" region="us-west-2
"
注意
根據預設, SageMaker 偵錯工具會收集系統指標,以監視硬體資源使用率和系統瓶頸。執行下列函式時,您可能會收到有關架構指標無法使用的錯誤訊息。要擷取架構設定檔資料並獲得架構操作的深入分析,您必須啟用架構分析。
-
如果您使用 SageMaker Python SDK 來操作訓練工作請求,請
framework_profile_params
將傳遞給估算器的profiler_config
引數。若要深入了解,請參閱設定 SageMaker 偵錯工具架構剖析。 -
如果您使用 Studio Classic,請使用偵錯工具深入解析儀表板中的 [效能分析] 切換按鈕來開啟效能 若要深入了解,請參閱SageMaker 偵錯工具見解儀表板控制
擷取訓練任務描述和儲存指標資料的 S3 儲存貯體 URI
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
檢查系統和架構指標是否可從 S3 URI 取得
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
在指標資料可用之後,建立系統和架構讀取器物件
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
重新整理和擷取最新的訓練事件檔案
讀取器物件具有延伸方法 refresh_event_file_list()
,可擷取最新的訓練事件檔案。
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()