Valide o runtime antes de executar workloads de produção em um cluster Slurm no HyperPod
Para verificar o runtime antes de executar qualquer workload em um cluster Slurm no HyperPod, use o script de validação do runtime hyperpod-precheck.py
Para executar o script em vários nós ao mesmo tempo, use srun
conforme mostrado no exemplo a seguir, o comando de execução do script em um cluster do Slurm de 8 nós.
# The following command runs on 8 nodes srun -N
8
python3 hyperpod-precheck.py
nota
Para saber mais sobre o script de validação, como as funções de validação em runtime que o script fornece e as diretrizes para resolver problemas que não passam nas validações, consulte Validação em runtime antes de executar workloads