本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker Debugger
即時偵錯機器學習訓練任務的模型輸出張量,並使用 Amazon SageMaker Debugger 偵測非收斂問題。
Amazon SageMaker Debugger 功能
機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函式和梯度消失等問題,這可能會洩露模型效能。
SageMaker Debugger 提供可偵錯訓練任務並解決此類問題的工具,改善模型的效能。發現訓練異常狀況時,Debugger 也提供傳送提醒的工具,針對問題採取行動,並透過視覺化收集的指標和張量來識別其根本原因。
SageMaker Debugger 支援 Apache MXNet、PyTorch、TensorFlow 和 XGBoost 架構。如需 SageMaker Debugger 所支援之可用架構和版本的詳細資訊,請參閱支援的架構和演算法。
![Amazon SageMaker Debugger 的運作方式概觀。](images/debugger/debugger-main.png)
高階 Debugger 工作流程如下所示:
-
如有需要,請使用
sagemaker-debugger
Python SDK 修改您的訓練指令碼。 -
使用 SageMaker Debugger 設定 SageMaker 訓練任務。
-
使用 SageMaker AI 估算器 API (適用於 Python SDK) 進行設定。
-
使用 SageMaker AI
CreateTrainingJob
請求 (適用於 Boto3 或 CLI) 設定 。 -
使用 SageMaker Debugger 設定自訂訓練容器。
-
-
開啟訓練任務並即時監控訓練問題。
-
收到提醒並針對訓練問題立即採取行動。
-
使用 針對規則使用 Debugger 內建動作 發現訓練問題時,收到文字和電子郵件,並停止訓練任務。
-
使用 Amazon CloudWatch Events 和 AWS Lambda 設定設定自己的動作。
-
-
探索訓練問題的深度分析。
-
如需偵錯模型輸出張量,請參閱在 TensorBoard 中視覺化偵錯工具輸出張量。
-
-
修正問題、考慮 Debugger 所提供的建議,然後重複步驟 1-5,直到您最佳化模型並達到目標準確度為止。
SageMaker Debugger 開發人員指南會逐步引導您完成下列主題。