Amazon SageMaker Debugger

焦點模式

Amazon SageMaker Debugger - Amazon SageMaker AI

即時偵錯機器學習訓練任務的模型輸出張量，並使用 Amazon SageMaker Debugger 偵測非收斂問題。

Amazon SageMaker Debugger 功能

機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函式和梯度消失等問題，這可能會洩露模型效能。

SageMaker Debugger 提供可偵錯訓練任務並解決此類問題的工具，改善模型的效能。發現訓練異常狀況時，Debugger 也提供傳送提醒的工具，針對問題採取行動，並透過視覺化收集的指標和張量來識別其根本原因。

SageMaker Debugger 支援 Apache MXNet、PyTorch、TensorFlow 和 XGBoost 架構。如需 SageMaker Debugger 所支援之可用架構和版本的詳細資訊，請參閱支援的架構和演算法。

高階 Debugger 工作流程如下所示：

如有需要，請使用 sagemaker-debugger Python SDK 修改您的訓練指令碼。
使用 SageMaker Debugger 設定 SageMaker 訓練任務。
- 使用 SageMaker AI 估算器 API （適用於 Python SDK) 進行設定。
- 使用 SageMaker AI CreateTrainingJob請求（適用於 Boto3 或 CLI) 設定。
- 使用 SageMaker Debugger 設定自訂訓練容器。
開啟訓練任務並即時監控訓練問題。
- Debugger 內建規則清單.
收到提醒並針對訓練問題立即採取行動。
- 使用針對規則使用 Debugger 內建動作發現訓練問題時，收到文字和電子郵件，並停止訓練任務。
- 使用 Amazon CloudWatch Events 和 AWS Lambda 設定設定自己的動作。
探索訓練問題的深度分析。
- 如需偵錯模型輸出張量，請參閱在 TensorBoard 中視覺化偵錯工具輸出張量。
修正問題、考慮 Debugger 所提供的建議，然後重複步驟 1-5，直到您最佳化模型並達到目標準確度為止。

SageMaker Debugger 開發人員指南會逐步引導您完成下列主題。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

刪除未使用的 TensorBoard 應用程式

支援的架構和演算法