在 Slurm 集群上运行生产工作负载之前验证运行时间 HyperPod - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Slurm 集群上运行生产工作负载之前验证运行时间 HyperPod

要在 Slurm 集群上运行任何生产工作负载之前检查运行时间 HyperPod,请使用运行时验证脚本。hyperpod-precheck.py此脚本检查 Slurm 集群是否安装了用于运行 Docker 的所有软件包,该集群是否正确安装FSx了 For Lustre 文件系统和共享文件系统的用户目录,以及 Slurm 守护程序是否在所有计算节点上运行。

要同时在多个节点上运行脚本,请使用srun以下示例命令在由 8 个节点组成的 Slurm 集群上运行脚本。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注意

要了解有关验证脚本的更多信息,例如该脚本提供的运行时验证功能以及解决未通过验证的问题的指南,请参阅在 Awsome Distributed Tra GitHub ining 存储库中运行工作负载之前的运行时验证