Validez le temps d'exécution avant d'exécuter des charges de travail de production sur un cluster Slurm sur HyperPod - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Validez le temps d'exécution avant d'exécuter des charges de travail de production sur un cluster Slurm sur HyperPod

Pour vérifier le temps d'exécution avant d'exécuter des charges de travail de production sur un cluster Slurm HyperPod, utilisez le script de validation de l'exécution. hyperpod-precheck.py Ce script vérifie si tous les packages nécessaires à l'exécution de Docker sont installés sur le cluster, si le cluster dispose d'un système de fichiers Lustre correctement monté FSx et d'un répertoire utilisateur partageant le système de fichiers, et si le démon Slurm est exécuté sur tous les nœuds de calcul.

Pour exécuter le script sur plusieurs nœuds à la fois, utilisez srun comme indiqué dans l'exemple de commande suivant pour exécuter le script sur un cluster Slurm de 8 nœuds.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
Note

Pour en savoir plus sur le script de validation, notamment les fonctions de validation d'exécution qu'il fournit et les instructions pour résoudre les problèmes qui ne passent pas les validations, consultez la section Validation de l'exécution avant d'exécuter des charges de travail dans le référentiel Awsome Distributed Training. GitHub