本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
若要在 HyperPod 上執行 Slurm 叢集上的任何生產工作負載之前檢查執行時間,請使用執行時間驗證指令碼 hyperpod-precheck.py
若要一次在多個節點上執行指令碼,請使用 srun
,如下列範例命令所示,在 8 個節點的 Slurm 叢集上執行指令碼。
# The following command runs on 8 nodes srun -N
8
python3 hyperpod-precheck.py
注意
若要進一步了解驗證指令碼,例如指令碼提供的執行時間驗證函數,以及解決未通過驗證的問題指導方針,請參閱執行時間驗證,然後再在 Awsome 分散式訓練 GitHub 儲存庫中執行工作負載