Amazon P SageMaker rofiler - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon P SageMaker rofiler

Amazon SageMaker Profiler 目前处于预览版,在支持 AWS 区域中免费提供。Amazon SageMaker Profiler 的正式版本(如果有)可能包含与预览版中提供的功能和定价不同的功能和价格。

Amazon SageMaker Profiler SageMaker 是 Amazon 的一项功能,它提供了在训练深度学习模型期间配置的 AWS 计算资源的详细视图。 SageMaker它侧重于分析CPU和GPU使用情况、内核运行时间GPUs、内核启动时间CPUs、同步操作、跨CPUs和的内存操作GPUs、内核启动和相应运行之间的延迟,以及CPUs和GPUs之间的数据传输。 SageMaker Profiler 还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和了解和之间事件的时间关系的训练作业时间表。GPUs CPUs

注意

SageMaker Profiler 支持 PyTorch TensorFlow 并已在 Dee AWS p Learning Containers 中提供。 SageMaker要了解更多信息,请参阅 支持的框架映像和实例类型 AWS 区域

对于数据科学家

在大型计算集群上训练深度学习模型通常会遇到计算优化问题,例如瓶颈、内核启动延迟、内存限制和资源利用率低。

要确定此类计算性能问题,您需要更深入地分析计算资源,了解哪些内核会带来延迟,哪些操作会导致瓶颈。数据科学家可以从使用 SageMaker Profiler 用户界面可视化训练作业的详细配置文件中受益。UI 提供了一个带摘要图表的控制面板和一个时间线界面,以便跟踪计算资源上的每个事件。数据科学家还可以使用 P SageMaker rofiler Python 模块添加自定义注释,以跟踪训练作业的某些部分。

对于管理员

如果您是 AWS 账户或域的管理员,则可以通过 SageMaker 控制台或SageMaker 网域中的 Profiler 登录页面管理 Profiler 应用程序用户。 SageMaker只要获得授予的权限,每个域用户都可以访问他们自己的 Profiler 应用程序。作为 SageMaker 域管理员和域用户,您可以根据自己的权限级别创建和删除 Profiler 应用程序。