Valide o runtime antes de executar workloads de produção em um cluster Slurm no HyperPod - Amazon SageMaker

Valide o runtime antes de executar workloads de produção em um cluster Slurm no HyperPod

Para verificar o runtime antes de executar qualquer workload em um cluster Slurm no HyperPod, use o script de validação do runtime hyperpod-precheck.py. Esse script verifica se o cluster Slurm tem todos os pacotes instalados para executar o Docker, se o cluster tem um sistema de arquivos FSx para Lustre montado corretamente e um diretório de usuário compartilhando o sistema de arquivos, e se o deamon do Slurm está sendo executado em todos os nós de computação.

Para executar o script em vários nós ao mesmo tempo, use srun conforme mostrado no exemplo a seguir, o comando de execução do script em um cluster do Slurm de 8 nós.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
nota

Para saber mais sobre o script de validação, como as funções de validação em runtime que o script fornece e as diretrizes para resolver problemas que não passam nas validações, consulte Validação em runtime antes de executar workloads no repositório GitHub do Awsome Distributed Training.