选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

分析和优化计算性能

聚焦模式
分析和优化计算性能 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在训练规模迅速增长的 state-of-the-art深度学习模型时,将此类模型的训练任务扩展到大型 GPU 集群,以及从梯度下降过程的每次迭代中数十亿次操作和通信中识别出计算性能问题成为一项挑战。

SageMaker AI 提供了分析工具,用于可视化和诊断在 AWS 云计算资源上运行训练作业所产生的此类复杂计算问题。 SageMaker 人工智能提供了两个分析选项:Amazon SageMaker Profiler 和 Amazon Studio Classic 中的资源利用率监控器。 SageMaker 请参阅这两项功能的以下说明以快速获得洞察,并根据您的需求了解要使用哪项功能。

Amazon P SageMaker rofiler

Amazon SageMaker Profiler 是 SageMaker AI 的一项分析功能,您可以使用它深入研究在训练深度学习模型时配置的计算资源,并深入了解操作级别的细节。 SageMaker Profiler 提供了 Python 模块,用于在脚本中添加注释 PyTorch 或 TensorFlow 训练脚本并激活 P SageMaker rofiler。你可以通过 SageMaker Python SDK 和 Dee AWS p Learning Containers 访问这些模块。

使用 P SageMaker rofiler,您可以跟踪 CPUs 和上的所有活动 GPUs,例如 CPU 和 GPU 利用率、内核运行时间 GPUs、内核启动时间 CPUs、同步操作、跨 CPUs 和的内存操作 GPUs、内核启动与相应运行之间的延迟,以及和之间的数据传输。 CPUs GPUs

SageMaker Profiler 还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和了解和之间事件的时间关系的训练作业时间表。 GPUs CPUs

要了解有关 SageMaker Profiler 的更多信息,请参阅Amazon P SageMaker rofiler

在 Amazon SageMaker Studio 经典版中监控 AWS 计算资源

SageMaker AI 还在 Studio Classic 中提供了一个用户界面,用于监控高级资源利用率,但与从 SageMaker AI 收集的默认利用率指标相比,精度更高。 CloudWatch

对于您使用 SageMaker Python SDK 在 SageMaker AI 中运行的任何训练作业, SageMaker AI 都会开始分析基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。它每 500 毫秒收集一次这些资源利用率指标。

与以 1 秒为间隔收集指标的 Amazon CloudWatch 指标相比, SageMaker AI 的监控功能可以更精细地了解资源利用率指标,间隔低至 100 毫秒(0.1 秒),因此您可以深入研究操作或步骤级别的指标。

要访问用于监控训练作业资源利用率指标的仪表板,请参阅 SageMaker Studio 实验中的 SageMaker AI 调试器用户界面

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。