As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas de lançamento das versões do Slurm no PCS AWS
Este tópico descreve mudanças importantes para cada versão do Slurm atualmente suportada no AWS PCS. Recomendamos que você analise as alterações entre a versão antiga e a nova ao atualizar seu cluster.
Mudanças implementadas no AWS PCS
-
Os registros de auditoria do Scheduler agora são entregues separadamente por meio do tipo de
PCS_SCHEDULER_AUDIT_LOGSregistro, simplificando a solução de problemas e a auditoria com controle independente sobre a entrega dos registros. Para obter mais informações, consulte os registros de auditoria do Scheduler no AWS PCS. -
A fila expressa está habilitada por padrão. Trabalhos que falham devido a problemas no nó (como erros de capacidade insuficiente) podem ser reenfileirados com a maior prioridade de agendamento usando.
sbatch --requeue=expediteIsso é controlado pela configuraçãoSchedulerParameters=enable_expedited_requeue. -
O
requeue_delayparâmetro está disponível como uma configuração de cluster personalizada com um padrão de 5 segundos. Anteriormente, o atraso na fila estava vinculado à expiração da credencial (70 segundos). Agora, os administradores podem configurar isso de forma independente viaSchedulerParameters=requeue_delay=<seconds>. -
HealthCheckNodeStateagora suporta oSTART_ONLYvalor, que executa o programa de verificação de integridade somente na inicialização do nó (slurmd start). -
CommunicationParameters=disable_httpé definido por padrão para desativar os endpoints HTTP (métricas e testes de saúde) introduzidos no Slurm 25.11. Para reativar esses endpoints, defina.CommunicationParameters=enable_httpPara obter mais informações, consulte Métricas do Slurm no AWS PCS.
Problemas conhecidos
-
O Slurm 25.11 valida
AllowQOSeDenyQOSparticiona as configurações mesmo quandoAccountingStorageEnforce=QOSnão está definido. Se uma QOS referenciadaAllowQOSouDenyQOSnão existir no banco de dados contábil do Slurm,slurmctldsairá com um erro fatal. Certifique-se de que todos os valores de QOS listados na partiçãoAllowQOSe nasDenyQOSconfigurações existam no banco de dados contábil antes de atualizar ou reiniciar o Slurm 25.11. -
O
slurmdregistro pode mostrar a mensagem de erroerror: cannot create url_parser context for http_parser/libhttp_parser. Esse é um problema conhecido do Slurm que ocorre mesmo quandoCommunicationParameters=disable_httpestá configurado. O erro pode ser ignorado com segurança e não afeta a operação do cluster.
Para obter mais informações sobre o Slurm 25.11, consulte as seguintes publicações:
-
Anúncio de lançamento do SchedMD: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Notas de lançamento do SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
Mudanças implementadas no AWS PCS
-
O Slurm SchedulerParameter requeue_on_resume_failure agora está ativado por padrão.
-
“stderr” foi removido como uma opção para LogTimeFormat, pois foi desativado no Slurm 25.05.
-
AWS O PCS suporta a configuração Multi-cluster sackd: o nó de login pode acessar vários clusters.
Para obter mais informações sobre o Slurm 25.05, consulte as seguintes publicações:
-
Anúncio de lançamento do SchedMD: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Notas de lançamento do SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
Mudanças implementadas no AWS PCS
-
AWS O PCS oferece suporte à contabilidade do Slurm. Para obter mais informações, consulte Contabilidade de slurm no PCS AWS.
Para obter mais informações sobre o Slurm 24.11, consulte as seguintes publicações:
Mudanças implementadas no AWS PCS
-
O novo módulo Slurm Step Manager agora está habilitado por padrão no AWS PCS. Esse módulo oferece benefícios significativos ao transferir o gerenciamento de etapas do controlador central para os nós de computação, melhorando substancialmente a simultaneidade do sistema em ambientes com uso intenso de etapas. Para suportar essa configuração e melhor isolar
PrologeEpilogprocessar a execução, novos sinalizadores de prólogo (Contain,Alloc) são habilitados. -
A comunicação hierárquica do controlador para os nós de computação é habilitada para otimizar a comunicação entre nós do Slurm, o que melhora a escalabilidade e o desempenho. Além disso, a configuração de roteamento agora usa listas de nós de partição para comunicações do controlador, em vez do algoritmo de roteamento padrão do plug-in, aprimorando a resiliência do sistema.
-
Um novo plugin de hash
HashPlugin=hash/sha3substitui o anterior.hash/k12 pluginAgora, isso está habilitado por padrão nos clusters AWS PCS. -
Os registros do controlador Slurm agora incluem recursos aprimorados de auditoria para todas as chamadas de procedimento remoto (RPC) de entrada para.
slurmctldOs registros incluem o endereço de origem, o usuário autenticado e o tipo de RPC antes do processamento da conexão.
Para obter mais informações sobre o Slurm 24.05, consulte as seguintes publicações:
Configurações do Slurm que você pode alterar no PCS AWS
-
O
SuspendTimepadrão é.60Use o parâmetroscaleDownIdleTimeInSecondsde configuração AWS PCS para defini-lo. Para obter mais informações, consulte oscaleDownIdleTimeInSecondsparâmetro do tipo deClusterSlurmConfigurationdados na Referência da API AWS PCS. -
O
MaxJobCounteMaxArraySizeé baseado no tamanho escolhido para o cluster. Para obter mais informações, consulte osizeparâmetro da ação daCreateClusterAPI na Referência da API AWS PCS. -
A configuração do
SelectTypeParametersSlurm é padronizada como.CR_CPUVocê pode fornecê-lo como um valorslurmCustomSettingspara defini-lo ao criar um cluster. Para obter mais informações, consulte oslurmCustomSettingsparâmetro da ação daCreateClusterAPI e SlurmCustomSettingna Referência da API AWS PCS. -
Você pode definir
PrologeEpilogno nível do cluster. Você pode fornecê-lo como um valorslurmCustomSettingspara defini-lo ao criar um cluster. Para obter mais informações, consulteCreateClustere SlurmCustomSettingna Referência da API AWS PCS. -
Você pode definir
WeighteRealMemoryno nível do grupo de nós de computação. Você pode fornecê-lo como um valorslurmCustomSettingspara defini-lo ao criar um grupo de nós de computação. Para obter mais informações, consulteCreateComputeNodeGroupe SlurmCustomSettingna Referência da API AWS PCS.