

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker 调试器
<a name="train-debugger"></a>

使用 Amazon Debugger 实时调试机器学习训练作业中的模型输出张量，并检测非融合问题。 SageMaker 

## Amazon SageMaker 调试器功能
<a name="debugger-features"></a>

机器学习 (ML) 训练作业可能存在系统瓶颈、过度拟合、饱和激活函数和梯度消失等问题，这些问题会影响模型性能。

SageMaker Debugger 提供了用于调试训练作业和解决此类问题的工具，从而提高模型的性能。Debugger 也提供了一些工具，用于在发现训练异常情况时发送警报，针对问题采取措施，并通过将收集的指标和张量可视化来确定造成问题的根本原因。

SageMaker 调试器支持 Apache MXNet、 PyTorch TensorFlow、和框架。 XGBoost 有关 D SageMaker ebugger 支持的可用框架和版本的更多信息，请参阅[支持的框架和算法](debugger-supported-frameworks.md)。

![\[Amazon SageMaker 调试器的工作原理概述。\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/debugger/debugger-main.png)


Debugger 工作流概述如下：

1. 如果需要，可以使用 `sagemaker-debugger` Python SDK 修改您的训练脚本。

1. 使用 SageMaker 调试器配置 SageMaker 训练作业。
   + 使用 SageMaker AI 估算器 API 进行配置（适用于 Python SDK）。
   + 使用 SageMaker AI [`CreateTrainingJob`请求进行配置（适用于 Boto3 或 CLI](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-createtrainingjob-api.html)）。
   + 使用 SageMaker 调试器配置[自定义训练容](debugger-bring-your-own-container.md)器。

1. 启动训练作业并实时监控训练问题。
   + [Debugger 内置规则列表](debugger-built-in-rules.md).

1. 获取警报并针对训练问题迅速采取措施。
   + 使用 [为规则使用 Debugger 内置操作](debugger-built-in-actions.md)，在发现训练问题时接收短信和电子邮件并停止训练作业。
   + 使用 [Amazon Ev CloudWatch ents 设置您自己的操作，然后 AWS Lambda](debugger-cloudwatch-lambda.md).

1. 探索对训练问题的深入分析。
   + 有关调试模型输出张量的信息，请参阅[在中可视化调试器输出张量 TensorBoard](debugger-enable-tensorboard-summaries.md)。

1. 修复问题，考虑 Debugger 提供的建议，然后重复步骤 1-5，直到模型得到优化并达到目标准确性。

《 SageMaker 调试器开发者指南》将引导您完成以下主题。

**Topics**
+ [Amazon SageMaker 调试器功能](#debugger-features)
+ [支持的框架和算法](debugger-supported-frameworks.md)
+ [Amazon SageMaker 调试器架构](debugger-how-it-works.md)
+ [Debugger 教程](debugger-tutorial.md)
+ [使用 Amazon 调试 SageMaker 器调试训练作业](debugger-debug-training-jobs.md)
+ [Debugger 内置规则列表](debugger-built-in-rules.md)
+ [使用 Debugger 客户端库创建自定义规则](debugger-custom-rules.md)
+ [使用 Debugger 和自定义训练容器](debugger-bring-your-own-container.md)
+ [使用 SageMaker API 配置调试器](debugger-createtrainingjob-api.md)
+ [Amazon SageMaker 调试器参考资料](debugger-reference.md)