Quais configurações específicas HyperPod gerenciam nos arquivos de configuração do Slurm - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Quais configurações específicas HyperPod gerenciam nos arquivos de configuração do Slurm

Quando você cria um cluster do Slurm no HyperPod, o HyperPod agente configura os gres.confarquivos slurm.confe em /opt/slurm/etc/ para gerenciar o cluster do Slurm com base na solicitação de criação do cluster e nos scripts HyperPod do ciclo de vida. A lista a seguir mostra quais parâmetros específicos o HyperPod agente manipula e substitui.

Importante

É altamente recomendável que você não altere esses parâmetros gerenciados pelo HyperPod.

  • Em slurm.conf, HyperPod configura os seguintes parâmetros básicos: ClusterName SlurmctldHostPartitionName,, NodeName e.

    Além disso, para habilitar a Retoma automático funcionalidade, é HyperPod necessário definir SchedulerParameters os parâmetros TaskPlugin e da seguinte forma. O HyperPod agente configura esses dois parâmetros com os valores necessários por padrão.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • Em gres.conf, HyperPod NodeName gerencia quatro GPU nós.