View a markdown version of this page

Notas de lançamento das versões do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas de lançamento das versões do Slurm no PCS AWS

Este tópico descreve mudanças importantes para cada versão do Slurm atualmente suportada no AWS PCS. Recomendamos que você analise as alterações entre a versão antiga e a nova ao atualizar seu cluster.

Mudanças implementadas no AWS PCS
  • Os registros de auditoria do Scheduler agora são entregues separadamente por meio do tipo de PCS_SCHEDULER_AUDIT_LOGS registro, simplificando a solução de problemas e a auditoria com controle independente sobre a entrega dos registros. Para obter mais informações, consulte os registros de auditoria do Scheduler no AWS PCS.

  • A fila expressa está habilitada por padrão. Trabalhos que falham devido a problemas no nó (como erros de capacidade insuficiente) podem ser reenfileirados com a maior prioridade de agendamento usando. sbatch --requeue=expedite Isso é controlado pela configuração SchedulerParameters=enable_expedited_requeue.

  • O requeue_delay parâmetro está disponível como uma configuração de cluster personalizada com um padrão de 5 segundos. Anteriormente, o atraso na fila estava vinculado à expiração da credencial (70 segundos). Agora, os administradores podem configurar isso de forma independente viaSchedulerParameters=requeue_delay=<seconds>.

  • HealthCheckNodeStateagora suporta o START_ONLY valor, que executa o programa de verificação de integridade somente na inicialização do nó (slurmd start).

  • CommunicationParameters=disable_httpé definido por padrão para desativar os endpoints HTTP (métricas e testes de saúde) introduzidos no Slurm 25.11. Para reativar esses endpoints, defina. CommunicationParameters=enable_http Para obter mais informações, consulte Métricas do Slurm no AWS PCS.

Problemas conhecidos
  • O Slurm 25.11 valida AllowQOS e DenyQOS particiona as configurações mesmo quando AccountingStorageEnforce=QOS não está definido. Se uma QOS referenciada AllowQOS ou DenyQOS não existir no banco de dados contábil do Slurm, slurmctld sairá com um erro fatal. Certifique-se de que todos os valores de QOS listados na partição AllowQOS e nas DenyQOS configurações existam no banco de dados contábil antes de atualizar ou reiniciar o Slurm 25.11.

  • O slurmd registro pode mostrar a mensagem de erroerror: cannot create url_parser context for http_parser/libhttp_parser. Esse é um problema conhecido do Slurm que ocorre mesmo quando CommunicationParameters=disable_http está configurado. O erro pode ser ignorado com segurança e não afeta a operação do cluster.

Para obter mais informações sobre o Slurm 25.11, consulte as seguintes publicações:

Mudanças implementadas no AWS PCS
  • O Slurm SchedulerParameter requeue_on_resume_failure agora está ativado por padrão.

  • “stderr” foi removido como uma opção para LogTimeFormat, pois foi desativado no Slurm 25.05.

  • AWS O PCS suporta a configuração Multi-cluster sackd: o nó de login pode acessar vários clusters.

Para obter mais informações sobre o Slurm 25.05, consulte as seguintes publicações:

Mudanças implementadas no AWS PCS

Para obter mais informações sobre o Slurm 24.11, consulte as seguintes publicações:

Mudanças implementadas no AWS PCS
  • O novo módulo Slurm Step Manager agora está habilitado por padrão no AWS PCS. Esse módulo oferece benefícios significativos ao transferir o gerenciamento de etapas do controlador central para os nós de computação, melhorando substancialmente a simultaneidade do sistema em ambientes com uso intenso de etapas. Para suportar essa configuração e melhor isolar Prolog e Epilog processar a execução, novos sinalizadores de prólogo (Contain,Alloc) são habilitados.

  • A comunicação hierárquica do controlador para os nós de computação é habilitada para otimizar a comunicação entre nós do Slurm, o que melhora a escalabilidade e o desempenho. Além disso, a configuração de roteamento agora usa listas de nós de partição para comunicações do controlador, em vez do algoritmo de roteamento padrão do plug-in, aprimorando a resiliência do sistema.

  • Um novo plugin de hash HashPlugin=hash/sha3 substitui o anterior. hash/k12 plugin Agora, isso está habilitado por padrão nos clusters AWS PCS.

  • Os registros do controlador Slurm agora incluem recursos aprimorados de auditoria para todas as chamadas de procedimento remoto (RPC) de entrada para. slurmctld Os registros incluem o endereço de origem, o usuário autenticado e o tipo de RPC antes do processamento da conexão.

Para obter mais informações sobre o Slurm 24.05, consulte as seguintes publicações:

Configurações do Slurm que você pode alterar no PCS AWS
  • O SuspendTime padrão é. 60 Use o parâmetro scaleDownIdleTimeInSeconds de configuração AWS PCS para defini-lo. Para obter mais informações, consulte o scaleDownIdleTimeInSecondsparâmetro do tipo de ClusterSlurmConfiguration dados na Referência da API AWS PCS.

  • O MaxJobCount e MaxArraySize é baseado no tamanho escolhido para o cluster. Para obter mais informações, consulte o sizeparâmetro da ação da CreateCluster API na Referência da API AWS PCS.

  • A configuração do SelectTypeParameters Slurm é padronizada como. CR_CPU Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um cluster. Para obter mais informações, consulte o slurmCustomSettingsparâmetro da ação da CreateCluster API e SlurmCustomSettingna Referência da API AWS PCS.

  • Você pode definir Prolog e Epilog no nível do cluster. Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um cluster. Para obter mais informações, consulte CreateClustere SlurmCustomSettingna Referência da API AWS PCS.

  • Você pode definir Weight e RealMemory no nível do grupo de nós de computação. Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um grupo de nós de computação. Para obter mais informações, consulte CreateComputeNodeGroupe SlurmCustomSettingna Referência da API AWS PCS.