本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon CloudWatch 和 對規則採取的動作 AWS Lambda
Amazon CloudWatch 收集 Amazon SageMaker 模型訓練任務日誌和 Amazon SageMaker Debugger 規則處理任務日誌。使用 Amazon CloudWatch Events 設定 Debugger AWS Lambda ,並根據 Debugger 規則評估狀態採取動作。
範例筆記本
您可以執行下列範例筆記本,這些筆記本準備使用 Debugger 內建規則上的動作,使用 Amazon CloudWatch 和 來嘗試停止訓練任務 AWS Lambda。
-
Amazon SageMaker Debugger - 從規則回應 CloudWatch 事件
這個範例筆記本執行的訓練工作有梯度消失的問題。建構 SageMaker TensorFlow 估算器時會使用偵錯工具VanishingGradient內建規則。Debugger 規則偵測到問題時,就會終止訓練工作。
-
使用 SageMaker 偵錯工具規則偵測停滯訓練和調用動作
這個範例筆記本會執行具有程式碼行的訓練指令碼,強制它進入睡眠 10 分鐘。Debugger StalledTrainingRule 內建規則會調用問題並停止訓練工作。