Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Notas de publicación de las versiones de Slurm en PCS AWS
En este tema se describen los cambios importantes de cada versión de Slurm actualmente compatible con el PCS. AWS Le recomendamos que revise los cambios entre la versión antigua y la nueva cuando actualice el clúster.
Cambios implementados en PCS AWS
-
Los registros de auditoría del programador ahora se entregan por separado según el tipo de
PCS_SCHEDULER_AUDIT_LOGSregistro, lo que simplifica la solución de problemas y la auditoría con un control independiente sobre la entrega de los registros. Para obtener más información, consulte Registros de auditoría del programador en AWS PCS. -
La repetición acelerada está habilitada de forma predeterminada. Los trabajos que fallan debido a problemas con los nodos (por ejemplo, errores de capacidad insuficiente) se pueden volver a poner en cola con la máxima prioridad de programación.
sbatch --requeue=expediteEsto se controla mediante la configuración deSchedulerParameters=enable_expedited_requeue. -
El
requeue_delayparámetro está disponible como una configuración de clúster personalizada con un valor predeterminado de 5 segundos. Anteriormente, el retraso en la repetición de la cola estaba vinculado a la caducidad de las credenciales (70 segundos). Los administradores ahora pueden configurarlo de forma independiente mediante.SchedulerParameters=requeue_delay=<seconds> -
HealthCheckNodeStateahora admite elSTART_ONLYvalor, que ejecuta el programa de verificación de estado solo al inicio del nodo (slurmd start). -
CommunicationParameters=disable_httpestá configurado de forma predeterminada para deshabilitar los puntos finales HTTP (métricas y sondeos de estado) introducidos en Slurm 25.11. Para volver a habilitar estos puntos finales, configure.CommunicationParameters=enable_httpPara obtener más información, consulte Métricas de Slurm en AWS PCS.
Problemas conocidos
-
Slurm 25.11 valida
AllowQOSyDenyQOSparticiona la configuración incluso cuando no está configurada.AccountingStorageEnforce=QOSSi se hace referencia a una QOS en la base de datos de contabilidad de SlurmAllowQOSoDenyQOSno existe en ella, se cierra con un error grave.slurmctldAsegúrese de que todos los valores de QOS que figuran en la particiónAllowQOSy laDenyQOSconfiguración existan en la base de datos de cuentas antes de actualizar o reiniciar Slurm 25.11. -
Es posible que el
slurmdregistro muestre el mensaje de error.error: cannot create url_parser context for http_parser/libhttp_parserSe trata de un problema conocido de Slurm que se produce incluso cuandoCommunicationParameters=disable_httpestá configurado. El error se puede ignorar de forma segura y no afecta al funcionamiento del clúster.
Para obtener más información sobre Slurm 25.11, consulte las siguientes publicaciones:
-
Anuncio de lanzamiento de SchedMD: https://www.schedmd.com/slurm-version-25-11-0-is-now-available/
-
Notas de lanzamiento de SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25.11/RELEASE_NOTES.md
Cambios implementados en el PCS AWS
-
El Slurm SchedulerParameter requeue_on_resume_failure ahora está activado de forma predeterminada.
-
Se eliminó «stderr» como opción, ya que estaba deshabilitado en Slurm 25.05. LogTimeFormat
-
AWS El PCS admite la configuración Multi-cluster sackd: el nodo de inicio de sesión puede acceder a varios clústeres.
Para obtener más información sobre Slurm 25.05, consulte las siguientes publicaciones:
-
Anuncio de lanzamiento de SchedMD: https://www.schedmd.com/slurm-version-25-05-0-is-now-available/
-
Notas de lanzamiento de SchedMD: https://github.com/SchedMD/slurm/blob/slurm-25-05-0-1/RELEASE_NOTES.md
Cambios implementados en PCS AWS
-
AWS PCS admite la contabilidad de Slurm. Para obtener más información, consulte Contabilidad de Slurm en PCS AWS.
Para obtener más información sobre Slurm 24.11, consulte las siguientes publicaciones:
Cambios implementados en el PCS AWS
-
El nuevo módulo Slurm Step Manager ahora está activado por defecto en AWS el PCS. Este módulo ofrece importantes ventajas al transferir la gestión por pasos del controlador central a los nodos de cómputo, lo que mejora sustancialmente la simultaneidad del sistema en entornos con un uso intensivo de pasos. Para admitir esta configuración y aislar
PrologyEpilogprocesar mejor los procesos, están habilitados los nuevos indicadores de prólogo (Contain,Alloc). -
La comunicación jerárquica entre el controlador y los nodos de cómputo permite optimizar la comunicación entre los nodos de Slurm, lo que mejora la escalabilidad y el rendimiento. Además, la configuración de enrutamiento ahora usa listas de nodos de partición para las comunicaciones desde el controlador, en lugar del algoritmo de enrutamiento predeterminado del complemento, lo que mejora la resiliencia del sistema.
-
Un nuevo complemento de hash
HashPlugin=hash/sha3reemplaza al anteriorhash/k12 plugin. Ahora está activado de forma predeterminada en los clústeres de AWS PCS. -
Los registros del controlador Slurm ahora incluyen capacidades de auditoría mejoradas para todas las llamadas entrantes a procedimientos remotos (RPC).
slurmctldLos registros incluyen la dirección de origen, el usuario autenticado y el tipo de RPC antes del procesamiento de la conexión.
Para obtener más información sobre Slurm 24.05, consulte las siguientes publicaciones:
La configuración de Slurm se puede cambiar en PCS AWS
-
El
SuspendTimevalor predeterminado es.60Utilice el parámetro descaleDownIdleTimeInSecondsconfiguración AWS PCS para configurarlo. Para obtener más información, consulte elscaleDownIdleTimeInSecondsparámetro del tipo deClusterSlurmConfigurationdatos en la referencia de la API de AWS PCS. -
El
MaxJobCountyMaxArraySizese basa en el tamaño que elija para el clúster. Para obtener más información, consulte elsizeparámetro de la acción de laCreateClusterAPI en la referencia de la API de AWS PCS. -
La configuración predeterminada de
SelectTypeParametersSlurm es.CR_CPUPuede proporcionarlo como un valor para configurarloslurmCustomSettingsal crear un clúster. Para obtener más información, consulte elslurmCustomSettingsparámetro de la acción de laCreateClusterAPI y SlurmCustomSettingen la Referencia de la API de AWS PCS. -
Puede configurar
PrologyEpiloga nivel de clúster. Puede proporcionarlo como un valorslurmCustomSettingspara configurarlo al crear un clúster. Para obtener más información, consulteCreateClustery SlurmCustomSettingen la referencia de la API de AWS PCS. -
Puede configurar
WeightyRealMemorya nivel de grupo de nodos de cómputo. Puede proporcionarlo como un valor para configurarloslurmCustomSettingsal crear un grupo de nodos de procesamiento. Para obtener más información, consultaCreateComputeNodeGroupy consulta SlurmCustomSettingla referencia de la API de AWS PCS.