Valide el tiempo de ejecución antes de ejecutar cargas de trabajo de producción en un clúster de Slurm en HyperPod - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Valide el tiempo de ejecución antes de ejecutar cargas de trabajo de producción en un clúster de Slurm en HyperPod

Para comprobar el tiempo de ejecución antes de ejecutar cualquier carga de trabajo de producción en un clúster de Slurm HyperPod, utilice el script de validación del tiempo de ejecución. hyperpod-precheck.py Este script comprueba si el clúster de Slurm tiene todos los paquetes instalados para ejecutar Docker, si el clúster tiene un sistema de archivos correctamente montado FSx para Lustre y un directorio de usuarios que comparte el sistema de archivos, y si el deamon de Slurm se ejecuta en todos los nodos de cómputo.

Para ejecutar el script en varios nodos a la vez, utilice srun el siguiente comando de ejemplo para ejecutar el script en un clúster de Slurm de 8 nodos.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
nota

Para obtener más información sobre el script de validación, por ejemplo, qué funciones de validación en tiempo de ejecución proporciona el script y pautas para resolver los problemas que no superan las validaciones, consulte Validación en tiempo de ejecución antes de ejecutar cargas de trabajo en el repositorio de Awsome Distributed Training. GitHub