本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用具有預設參數設定的 Debugger 內建規則
若要在估算器中指定偵錯工具內建規則,您需要設定清單物件。下列範例程式碼顯示列出偵錯工具內建規則的基本結構。
from sagemaker.debugger import Rule, rule_configs rules=[ Rule.sagemaker(rule_configs.
built_in_rule_name_1
()), Rule.sagemaker(rule_configs.built_in_rule_name_2
()), ... Rule.sagemaker(rule_configs.built_in_rule_name_n
()), ... # You can also append more profiler rules in the ProfilerRule.sagemaker(rule_configs.*()) format. ]
有關預設參數值和內建規則說明的詳細資訊,請參閱Debugger 內建規則清單。
若要尋找 SageMaker 偵錯工具API參考,請參閱 sagemaker.debugger.rule_configs
sagemaker.debugger.Rule
例如,若要檢查模型的整體訓練效能和進度,請使用下列內建規則組態建構 SageMaker 估算器。
from sagemaker.debugger import Rule, rule_configs rules=[ Rule.sagemaker(rule_configs.
loss_not_decreasing
()), Rule.sagemaker(rule_configs.overfit
()), Rule.sagemaker(rule_configs.overtraining
()), Rule.sagemaker(rule_configs.stalled_training_rule
()) ]
當您開始訓練任務時,偵錯工具會每 500 毫秒收集一次系統資源使用率資料,並依預設每 500 個步驟收集一次遺失和準確度值。偵錯工具會分析資源使用率,來識別您的模型是否有瓶頸問題。loss_not_decreasing
、overfit
、overtraining
和 stalled_training_rule
會監控您的模型是否在沒有這些訓練問題的情況下,最佳化損耗功能。如果規則偵測到訓練有異常狀況,則規則評估狀態會變更為 IssueFound
。您可以設定自動動作,例如使用 Amazon CloudWatch Events 和 通知訓練問題和停止訓練任務 AWS Lambda。如需詳細資訊,請參閱Amazon SageMaker Debugger 規則的動作。