本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在训练规模迅速增长的 state-of-the-art深度学习模型时,将此类模型的训练任务扩展到大型 GPU 集群,以及从梯度下降过程的每次迭代中数十亿次操作和通信中识别出计算性能问题成为一项挑战。
SageMaker AI 提供了分析工具,用于可视化和诊断在 AWS 云计算资源上运行训练作业所产生的此类复杂计算问题。 SageMaker 人工智能提供了两个分析选项:Amazon SageMaker Profiler 和 Amazon Studio Classic 中的资源利用率监控器。 SageMaker 请参阅这两项功能的以下说明以快速获得洞察,并根据您的需求了解要使用哪项功能。
Amazon P SageMaker rofiler
Amazon SageMaker Profiler 是 SageMaker AI 的一项分析功能,您可以使用它深入研究在训练深度学习模型时配置的计算资源,并深入了解操作级别的细节。 SageMaker Profiler 提供了 Python 模块,用于在脚本中添加注释 PyTorch 或 TensorFlow 训练脚本并激活 P SageMaker rofiler。你可以通过 SageMaker Python SDK 和 Dee AWS p Learning Containers 访问这些模块。
使用 P SageMaker rofiler,您可以跟踪 CPUs 和上的所有活动 GPUs,例如 CPU 和 GPU 利用率、内核运行时间 GPUs、内核启动时间 CPUs、同步操作、跨 CPUs 和的内存操作 GPUs、内核启动与相应运行之间的延迟,以及和之间的数据传输。 CPUs GPUs
SageMaker Profiler 还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和了解和之间事件的时间关系的训练作业时间表。 GPUs CPUs
要了解有关 SageMaker Profiler 的更多信息,请参阅Amazon P SageMaker rofiler。
在 Amazon SageMaker Studio 经典版中监控 AWS 计算资源
SageMaker AI 还在 Studio Classic 中提供了一个用户界面,用于监控高级资源利用率,但与从 SageMaker AI 收集的默认利用率指标相比,精度更高。 CloudWatch
对于您使用 SageMaker Python SDK 在 SageMaker AI 中运行的任何训练作业, SageMaker AI 都会开始分析基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。它每 500 毫秒收集一次这些资源利用率指标。
与以 1 秒为间隔收集指标的 Amazon CloudWatch 指标相比, SageMaker AI 的监控功能可以更精细地了解资源利用率指标,间隔低至 100 毫秒(0.1 秒),因此您可以深入研究操作或步骤级别的指标。
要访问用于监控训练作业资源利用率指标的仪表板,请参阅 SageMaker Studio 实验中的 SageMaker AI 调试器用户界面。