选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

在 Slurm 集群上运行生产工作负载之前验证运行时间 HyperPod

聚焦模式
在 Slurm 集群上运行生产工作负载之前验证运行时间 HyperPod - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

要在 Slurm 集群上运行任何生产工作负载之前检查运行时间 HyperPod,请使用运行时验证脚本。hyperpod-precheck.py该脚本检查 Slurm 集群是否安装了用于运行 Docker 的所有软件包,该集群是否正确安装 FSx 了 For Lustre 文件系统和共享文件系统的用户目录,以及 Slurm 守护程序是否在所有计算节点上运行。

要在多个节点上同时运行脚本,请使用 srun,如以下在由 8 个节点组成的 Slurm 集群上运行脚本的命令示例所示。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注意

要了解有关验证脚本的更多信息,例如该脚本提供的运行时验证功能以及解决未通过验证的问题的指南,请参阅在 Awsome Distributed Tra GitHub ining 存储库中运行工作负载之前的运行时验证

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。