在 上建立 Slurm 叢集之前,請先驗證JSON組態檔案 HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 上建立 Slurm 叢集之前,請先驗證JSON組態檔案 HyperPod

若要在提交叢集建立請求之前驗證JSON組態檔案,請使用組態驗證指令碼 validate-config.py。此指令碼會剖析和比較 HyperPod 叢集組態JSON檔案和 Slurm 組態JSON檔案,並識別兩個檔案與 Amazon EC2、Amazon VPC和 Amazon FSx 資源之間是否有任何資源組態錯誤。例如,若要從 從 提供的基本生命週期指令碼開始 HyperPod區段驗證 create_cluster.jsonprovisioning_parameters.json 檔案,請執行驗證指令碼,如下所示。

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

以下是成功驗證的範例輸出。

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded