本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
当您启动 SageMaker 训练任务时,默认情况下, SageMaker 调试器会开始监控 Amazon EC2 实例的资源利用率。您可以通过 Insights 控制面板跟踪系统利用率、统计数据概览和内置规则分析。本指南将引导您完成以下选项卡下的 SageMaker Debugger Insights 控制面板的内容:系统指标和规则。
注意
SageMaker Debugger Insights 仪表板在ml.m5.4xlarge
实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时,相应的内核会话也将关闭。Studio Classic 应用程序仍然保持活动状态,并会因为使用 ml.m5.4xlarge
实例而产生费用。有关定价的信息,请参阅 Amazon SageMaker AI 定价
重要
使用 SageMaker Debugger Insights 仪表板后,请关闭ml.m5.4xlarge
实例以免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker 调试器洞察实例。
重要
报告中提供的图表和建议仅供参考,并不确保准确无误。您应负责对其中的信息进行单独评测。
系统指标
在系统指标选项卡中,您可以使用摘要表和时间序列图来了解资源利用率。
资源利用率摘要
此摘要表显示所有节点的计算资源利用率指标的统计信息(表示为 algo-n)。资源利用率指标包括 CPU 总利用率、GPU 总利用率、CPU 内存总利用率、GPU 内存总利用率、总 I/O 等待时间以及总网络流量(以字节为单位)。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。

资源利用率时间序列图
在时间序列图中可以查看资源利用率的更多详细信息,并确定每个实例在什么时间窗口中出现了任何不希望出现的利用率数据,例如 GPU 利用率低和 CPU 瓶颈可能导致浪费实例成本。
时间序列图控制器 UI
以下屏幕截图显示了用于调整时间序列图的 UI 控制器。

-
algo-1:使用此下拉菜单选择要查看的节点。
-
放大:使用此按钮可以放大时间序列图,以查看较短的时间窗口。
-
放大:使用此按钮可以缩小时间序列图,以查看较长的时间窗口。
-
向左平移:将时间序列图表移动到较早的时间窗口。
-
向右平移:将时间序列图表移动到较晚的时间窗口。
-
固定时间范围:使用此复选框来固定或者返回到时间序列图,以显示从第一个数据点到最后一个数据点的完整视图。
CPU 利用率和 I/O 等待时间
前两个图表显示一段时间内的 CPU 利用率和 I/O 等待时间。默认情况下,这些图表显示 CPU 利用率和在 CPU 核心上花费的 I/O 等待时间的平均值。您可以通过选择标签来选择一个或多个 CPU 核心,从而在单独的图表上绘制其图形并对不同核心的利用率进行比较。您可以拖动和缩放图形来仔细查看特定的时间窗口。

GPU 利用率和 GPU 内存利用率
下图显示一段时间的 GPU 利用率和 GPU 内存利用率。默认情况下,这些图表显示一段时间内的平均利用率。您可以选择 GPU 核心标签来查看各个核心的利用率。利用 GPU 核心总数上的利用率平均值来表示整个硬件系统资源的平均利用率。通过查看平均利用率,您可以检查 Amazon EC2 实例的总体系统资源使用情况。下图显示具有 8 个 GPU 核心的 ml.p3.16xlarge
实例上的示例训练作业。您可以监控训练作业是否分布良好,充分利用所有内容 GPUs。

一段时间的整体系统利用率
下面的热图显示了在二维图上投影的一段时间内的 ml.p3.16xlarge
实例整体系统利用率。各个 CPU 和 GPU 核心在垂直轴上列出,并使用颜色方案记录一段时间内的利用率,其中较浅的颜色代表低利用率,较深的颜色代表高利用率。请参阅图右侧带标注的颜色条,了解各个颜色深浅程度所对应的利用率。

规则
使用规则选项卡查找训练作业分析规则的分析摘要。如果在训练作业中激活了分析规则,则文本将以纯白色文本突出显示。未激活的规则以灰色文本灰显。要激活这些规则,请按照使用由 Amazon SageMaker Debugger 管理的内置分析器规则中的说明进行操作。
