監控和分析訓練任務的 Amazon CloudWatch 指標 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控和分析訓練任務的 Amazon CloudWatch 指標

Amazon SageMaker 訓練任務是一種反覆程序,透過提供訓練資料集的範例,教導模型進行預測。一般來說,訓練演算法會計算訓練錯誤和預測準確度等多個指標。這些指標有助於診斷模型是否順利學習,並足夠普遍化,可對未知資料進行預測。訓練演算法會將這些指標的值寫入日誌,以 CloudWatch 即時 SageMaker 監控並傳送至 Amazon。若要分析訓練任務的效能,您可以在 中檢視這些指標的圖表 CloudWatch。當訓練任務完成之後,您也可以呼叫 DescribeTrainingJob 操作,以獲得訓練任務在其最終反覆運算中計算的指標值清單。

注意

Amazon CloudWatch 支援高解析度自訂指標 ,其最佳解析度為 1 秒。不過,解析度越精細, CloudWatch 指標的生命週期越短。對於 1 秒頻率解析度, CloudWatch 指標可使用 3 小時。如需 CloudWatch 指標的解析度和生命週期的詳細資訊,請參閱 Amazon 參考 GetMetricStatistics 中的 。 CloudWatch API

提示

如果您想要以更精細的解析度描述訓練任務,直到 100 毫秒 (0.1 秒) 的精細度,並隨時無限期地將訓練指標存放在 Amazon S3 中進行自訂分析,請考慮使用 Amazon SageMaker Debugger 。 SageMaker Debugger 提供內建規則,以自動偵測常見的訓練問題;它會偵測硬體資源使用問題 (例如 CPU、 GPU和 I/O 瓶頸) 和非收斂的模型問題 (例如過度擬合、逐漸消失的漸層和爆炸的張量)。 SageMaker Debugger 也透過 Studio Classic 及其分析報告提供視覺化效果。若要探索偵錯工具視覺化效果,請參閱SageMaker 偵錯工具洞察儀表板演練 偵錯工具分析報告演練 ,以及使用SMDebug用戶端程式庫 分析資料