Validación de los archivos de configuración JSON antes de crear un clúster de Slurm en HyperPod - Amazon SageMaker

Validación de los archivos de configuración JSON antes de crear un clúster de Slurm en HyperPod

Para validar los archivos de configuración JSON antes de enviar una solicitud de creación de clúster, utilice el script de validación de la configuración validate-config.py. Este script analiza y compara el archivo JSON de configuración del clúster de HyperPod y el archivo JSON de configuración de Slurm, e detecta si hay algún error de configuración de los recursos entre los dos archivos, así como entre los recursos de Amazon EC2, Amazon VPC y Amazon FSx. Por ejemplo, para validar los archivos create_cluster.json y provisioning_parameters.json de la sección Introducción a los scripts de ciclo de vida básicos que proporciona HyperPod, ejecute el script de validación de la siguiente manera.

python3 validate-config.py --cluster-config create_cluster.json --provisioning-parameters provisioning_parameters.json

A continuación, se muestra un ejemplo del resultado de una validación correcta.

✔️ Validated instance group name worker-group-1 is correct ... ✔️ Validated subnet subnet-012345abcdef67890 ... ✔️ Validated security group sg-012345abcdef67890 ingress rules ... ✔️ Validated security group sg-012345abcdef67890 egress rules ... ✔️ Validated FSx Lustre DNS name fs-012345abcdef67890.fsx.us-east-1.amazonaws.com ✔️ Validated FSx Lustre mount name abcdefgh ✅ Cluster Validation succeeded