本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon SageMaker 偵錯工具偵錯並改善模型效能
從機器學習訓練任務即時偵錯模型輸出張量,並使用 Amazon Debug 偵測非融合問題。 SageMaker
Amazon SageMaker 調試功能
機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函數和梯度消失等問題,這可能會洩露模型效能。
SageMaker 偵錯工具提供的工具可偵錯訓練工作,並解決此類問題,以改善模型的效能。發現訓練異常狀況時,Debugger 也提供傳送提醒的工具,針對問題採取行動,並透過視覺化收集的指標和張量來識別其根本原因。
SageMaker 除錯器支援阿帕奇 MXNet、 PyTorch TensorFlow、和 XGBoost 架構。如需有關 SageMaker 除錯程式支援的可用架構和版本的詳細資訊,請參閱支援的架構和演算法。
![Amazon SageMaker 調試器如何工作的概述。](images/debugger/debugger-main.png)
高階 Debugger 工作流程如下所示:
-
如有需要,請使用
sagemaker-debugger
Python SDK 修改您的訓練指令碼。 -
使用 SageMaker 偵錯工具設定 SageMaker 訓練工作。
-
使用 SageMaker 估算器 API 進行設定 (適用於 Python SDK)。
-
使用 SageMaker
CreateTrainingJob
要求進行設定 (適用於 Boto3 或 CLI)。 -
使用偵錯工具設定自訂訓練容 SageMaker 器。
-
-
開啟訓練任務並即時監控訓練問題。
-
收到提醒並針對訓練問題立即採取行動。
-
使用 偵錯工具為規則內建的動作 發現訓練問題時,收到文字和電子郵件,並停止培訓任務。
-
-
探索訓練問題的深度分析。
-
如需偵錯模型輸出張量,請參閱可視化調試器輸出張量 TensorBoard。
-
-
修正問題、考慮 Debugger 所提供的建議,然後重複步驟 1-5,直到您最佳化模型並達到目標準確度為止。
SageMaker 偵錯工具開發人員指南會逐步引導您完成下列主題。