Valide o tempo de execução antes de executar cargas de trabalho de produção em um cluster do Slurm no HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Valide o tempo de execução antes de executar cargas de trabalho de produção em um cluster do Slurm no HyperPod

Para verificar o tempo de execução antes de executar qualquer carga de trabalho de produção em um cluster do Slurm HyperPod, use o script de validação do tempo de execução. hyperpod-precheck.py Esse script verifica se o cluster Slurm tem todos os pacotes instalados para executar o Docker, se o cluster tem um sistema de arquivos Lustre montado FSx corretamente e um diretório de usuário compartilhando o sistema de arquivos, e se o deamon do Slurm está sendo executado em todos os nós de computação.

Para executar o script em vários nós ao mesmo tempo, use, srun conforme mostrado no exemplo a seguir, o comando de execução do script em um cluster do Slurm de 8 nós.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
nota

Para saber mais sobre o script de validação, como quais funções de validação em tempo de execução o script fornece e diretrizes para resolver problemas que não passam nas validações, consulte Validação em tempo de execução antes de executar cargas de trabalho no repositório do Awsome Distributed Training. GitHub