本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Slurm 集群上运行生产工作负载之前验证运行时间 HyperPod
要在 Slurm 集群上运行任何生产工作负载之前检查运行时间 HyperPod,请使用运行时验证脚本。hyperpod-precheck.py
要同时在多个节点上运行脚本,请使用srun
以下示例命令在由 8 个节点组成的 Slurm 集群上运行脚本。
# The following command runs on 8 nodes srun -N
8
python3 hyperpod-precheck.py
注意
要了解有关验证脚本的更多信息,例如该脚本提供的运行时验证功能以及解决未通过验证的问题的指南,请参阅在 Awsome Distributed Tra GitHub ining 存储库中运行工作负载之前的运行时验证