在 上執行 Slurm 叢集的生產工作負載之前,請先驗證執行時間 HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 上執行 Slurm 叢集的生產工作負載之前,請先驗證執行時間 HyperPod

若要在 上的 Slurm 叢集上執行任何生產工作負載之前檢查執行時間 HyperPod,請使用執行時間驗證指令碼 hyperpod-precheck.py。此指令碼會檢查 Slurm 叢集是否已安裝所有套件以執行 Docker、叢集是否已正確掛載 FSx Lustre 檔案系統和共用檔案系統的使用者目錄,以及 Slurm 損毀程式是否正在所有運算節點上執行。

若要一次在多個節點上執行指令碼,請使用下列範例命令srun所示,在 8 個節點的 Slurm 叢集上執行指令碼。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注意

若要進一步了解驗證指令碼,例如指令碼提供的執行時間驗證函數,以及解決未通過驗證的問題的指導方針,請參閱 Awsome 分散式訓練 GitHub 儲存庫 中的執行工作負載之前執行時間驗證