在 HyperPod 上创建 Slurm 集群前验证 JSON 配置文件 - Amazon SageMaker

在 HyperPod 上创建 Slurm 集群前验证 JSON 配置文件

要在提交集群创建请求前验证 JSON 配置文件,请使用配置验证脚本 validate-config.py。该脚本会解析并比较 HyperPod 集群配置 JSON 文件和 Slurm 配置 JSON 文件,并识别这两个文件之间以及 Amazon EC2、Amazon VPC 和 Amazon FSx 资源之间是否存在任何资源配置错误。例如,要验证 从 HyperPod 提供的基本生命周期脚本开始 一节的 create_cluster.jsonprovisioning_parameters.json 文件,请按以下步骤运行验证脚本。

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

下面是一个成功验证的输出示例。

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded