選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 HyperPod 上執行 Slurm 叢集上的生產工作負載之前,請先驗證執行時間

焦點模式
在 HyperPod 上執行 Slurm 叢集上的生產工作負載之前,請先驗證執行時間 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要在 HyperPod 上執行 Slurm 叢集上的任何生產工作負載之前檢查執行時間,請使用執行時間驗證指令碼 hyperpod-precheck.py。此指令碼會檢查 Slurm 叢集是否已安裝所有套件以執行 Docker、叢集是否具有正確掛載的 FSx for Lustre 檔案系統,以及共用檔案系統的使用者目錄,以及 Slurm Deamon 是否正在所有運算節點上執行。

若要一次在多個節點上執行指令碼,請使用 srun,如下列範例命令所示,在 8 個節點的 Slurm 叢集上執行指令碼。

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
注意

若要進一步了解驗證指令碼,例如指令碼提供的執行時間驗證函數,以及解決未通過驗證的問題指導方針,請參閱執行時間驗證,然後再在 Awsome 分散式訓練 GitHub 儲存庫中執行工作負載 GitHub

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。