

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker Debugger
<a name="train-debugger"></a>

即時偵錯機器學習訓練任務的模型輸出張量，並使用 Amazon SageMaker Debugger 偵測非收斂問題。

## Amazon SageMaker Debugger 功能
<a name="debugger-features"></a>

機器學習 (ML) 訓練任務可能會遇到諸如過度擬合、飽和啟動函式和梯度消失等問題，這可能會洩露模型效能。

SageMaker Debugger 提供可偵錯訓練任務並解決此類問題的工具，改善模型的效能。發現訓練異常狀況時，Debugger 也提供傳送提醒的工具，針對問題採取行動，並透過視覺化收集的指標和張量來識別其根本原因。

SageMaker Debugger 支援 Apache MXNet、PyTorch、TensorFlow 和 XGBoost 架構。如需 SageMaker Debugger 所支援之可用架構和版本的詳細資訊，請參閱[支援的架構和演算法](debugger-supported-frameworks.md)。

![\[Amazon SageMaker Debugger 的運作方式概觀。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/debugger/debugger-main.png)


高階 Debugger 工作流程如下所示：

1. 如有需要，請使用 `sagemaker-debugger` Python SDK 修改您的訓練指令碼。

1. 使用 SageMaker Debugger 設定 SageMaker 訓練任務。
   + 使用 SageMaker AI 估算器 API (適用於 Python SDK) 進行設定。
   + 使用 SageMaker AI [`CreateTrainingJob` 請求 (適用於 Boto3 或 CLI)](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-createtrainingjob-api.html) 進行設定。
   + 使用 SageMaker Debugger 設定[自訂訓練容器](debugger-bring-your-own-container.md)。

1. 開啟訓練任務並即時監控訓練問題。
   + [偵錯工具內建規則清單](debugger-built-in-rules.md).

1. 收到提醒並針對訓練問題立即採取行動。
   + 使用 [使用偵錯工具內建動作來執行規則](debugger-built-in-actions.md) 發現訓練問題時，收到文字和電子郵件，並停止訓練任務。
   + 使用 [Amazon CloudWatch Events 和 AWS Lambda](debugger-cloudwatch-lambda.md) 設定設定自己的動作。

1. 探索訓練問題的深度分析。
   + 如需偵錯模型輸出張量，請參閱[在 TensorBoard 中視覺化偵錯工具輸出張量](debugger-enable-tensorboard-summaries.md)。

1. 修正問題、考慮 Debugger 所提供的建議，然後重複步驟 1-5，直到您最佳化模型並達到目標準確度為止。

SageMaker Debugger 開發人員指南會逐步引導您完成下列主題。

**Topics**
+ [Amazon SageMaker Debugger 功能](#debugger-features)
+ [支援的架構和演算法](debugger-supported-frameworks.md)
+ [Amazon SageMaker Debugger 架構](debugger-how-it-works.md)
+ [Debugger 教學課程](debugger-tutorial.md)
+ [使用 Amazon SageMaker Debugger 為訓練任務除錯](debugger-debug-training-jobs.md)
+ [偵錯工具內建規則清單](debugger-built-in-rules.md)
+ [使用偵錯工具用戶端程式庫建立自訂規則](debugger-custom-rules.md)
+ [Debugger 和自訂訓練容器搭配使用](debugger-bring-your-own-container.md)
+ [使用 SageMaker API 設定 Debugger](debugger-createtrainingjob-api.md)
+ [Amazon SageMaker Debugger 參考](debugger-reference.md)