Slurm contabilidad con AWS ParallelCluster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Slurm contabilidad con AWS ParallelCluster

A partir de la versión 3.3.0, admite AWS ParallelCluster Slurm contabilizar con el parámetro de configuración del clúster SlurmSettings/Base de datos.

A partir de la versión 3.10.0, admite AWS ParallelCluster Slurm contabilizar con un Slurmdbd externo con el parámetro de configuración del clúster/. SlurmSettingsExternalSlurmdbd Se recomienda usar un Slurmdbd externo si varios clústeres comparten la misma base de datos.

With Slurm contable, puede integrar una base de datos contable externa para hacer lo siguiente:

  • Administre los usuarios o grupos de usuarios del clúster y otras entidades. Con esta capacidad, puede utilizar Slurmsus funciones más avanzadas, como la aplicación de los límites de recursos, el reparto justo yQOSs.

  • Recopile y guarde datos del trabajo, como el usuario que lo ejecutó, la duración del trabajo y los recursos que utiliza. Puede ver los datos guardados con la utilidad sacct.

nota

AWS ParallelCluster apoya Slurm contabilizando Slurm mis servidores de SQL bases de datos compatibles.

Trabajando con Slurm contabilidad mediante fuentes externas Slurmdbd en AWS ParallelCluster v3.10.0 y versiones posteriores

Antes de configurar Slurm contabilidad, debe tener una cuenta externa existente Slurmdbd servidor de base de datos, que se conecta a un servidor de base de datos externo existente.

Para configurarlo, defina lo siguiente:

  • La dirección del dispositivo externo Slurmdbd servidor en ExternalSlurmdbd/Host. El servidor debe existir y ser accesible desde el nodo principal.

  • La clave munge para comunicarse con el exterior Slurmdbd servidor en MungeKeySecretArn.

Para ver un tutorial, consulte Crear un clúster con una Slurmdbd contabilidad externa.

nota

Usted es responsable de administrar el Slurm entidades contables de bases de datos.

La arquitectura de lo AWS ParallelCluster externo SlurmDB la función de soporte permite que varios clústeres compartan lo mismo SlurmDB y la misma base de datos.

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

aviso

Tráfico entre AWS ParallelCluster y el externo SlurmDB no está cifrado. Se recomienda ejecutar el clúster y el externo SlurmDB en una red de confianza.

Trabajando con Slurm contabilidad mediante el nodo principal Slurmdbd en la AWS ParallelCluster versión 3.3.0 y versiones posteriores

Antes de configurar Slurm en el área de contabilidad, debe tener un servidor de base de datos externo existente y una base de datos que utilice mysql el protocolo.

Para configurar Slurm contabilizar con AWS ParallelCluster, debe definir lo siguiente:

  • El URI para el servidor de base de datos externo en Database/Uri. El servidor debe existir y ser accesible desde el nodo principal.

  • Credenciales para acceder a la base de datos externa que se definen en Database/PasswordSecretArny Database/UserName. AWS ParallelCluster utiliza esta información para configurar la contabilidad en el Slurm el nivel y el slurmdbd servicio en el nodo principal. slurmdbdes el daemon que gestiona la comunicación entre el clúster y el servidor de la base de datos.

Para ver un tutorial, consulte Crear un clúster con Slurm contabilidad.

nota

AWS ParallelCluster realiza un arranque básico del Slurm base de datos de contabilidad configurando el usuario predeterminado del clúster como administrador de la base de datos en Slurm base de datos. AWS ParallelCluster no agrega ningún otro usuario a la base de datos de cuentas. El cliente es responsable de gestionar las entidades contables del Slurm base de datos.

AWS ParallelCluster se configura slurmdbdpara garantizar que un clúster tenga su propio Slurm base de datos en el servidor de bases de datos. El mismo servidor de base de datos se puede utilizar en varios clústeres, pero cada clúster tiene su propia base de datos independiente. AWS ParallelCluster usa el nombre del clúster para definir el nombre de la base de datos en el StorageLocparámetro del archivo de slurmdbd configuración. Tenga en cuenta la siguiente situación. Una base de datos que está presente en el servidor de bases de datos incluye un nombre de clúster que no se corresponde con un nombre de clúster activo. En este caso, puede crear un nuevo clúster con ese nombre para asignarlo a esa base de datos. Slurm reutiliza la base de datos para el nuevo clúster.

aviso
  • No recomendamos configurar más de un clúster para usar la misma base de datos a la vez. Si lo hace, puede provocar problemas de rendimiento o incluso situaciones de bloqueo de la base de datos.

  • Si Slurm la contabilidad está habilitada en el nodo principal de un clúster, por lo que recomendamos utilizar un tipo de instancia con más memoria y mayor ancho de banda de red. CPU Slurm la contabilidad puede suponer una carga adicional para el nodo principal del clúster.

En la arquitectura actual del AWS ParallelCluster Slurm función de contabilidad, cada clúster tiene su propia instancia del slurmdbd daemon, como se muestra en el siguiente diagrama de configuraciones de ejemplo.

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

Si vas a añadir una personalizada Slurm funcionalidades de varios clústeres o de federación a tu entorno de clústeres, todos los clústeres deben hacer referencia a la misma slurmdbd instancia. Para esta alternativa, le recomendamos que habilite AWS ParallelCluster Slurm contabilizar un clúster y configurar manualmente los demás clústeres para que se conecten a los slurmdbd que están alojados en el primer clúster.

Si utiliza AWS ParallelCluster versiones anteriores a la 3.3.0, consulte el método alternativo para implementarlas Slurm la contabilidad que se describe en esta HPCentrada de blog.

Slurm consideraciones contables

Base de datos y clúster en diferentes VPCs

Para habilitar Slurm para la contabilidad, se necesita un servidor de base de datos que sirva de backend para las operaciones de lectura y escritura que realiza el slurmdbd daemon. Antes de crear o actualizar el clúster para habilitarlo Slurm desde el punto de vista contable, el nodo principal debe poder acceder al servidor de la base de datos.

Si necesita implementar el servidor de base de datos en un servidor VPC distinto del que utiliza el clúster, tenga en cuenta lo siguiente:

  • Para habilitar la comunicación entre slurmdbd el servidor de bases de datos del clúster y el servidor de bases de datos, debe configurar la conectividad entre ambosVPCs. Para obtener más información, consulte VPCEmparejamiento en la Guía del usuario de Amazon Virtual Private Cloud.

  • Debe crear el grupo de seguridad que desee adjuntar al nodo principal VPC del clúster. Una vez emparejados VPCs los dos, está disponible la vinculación cruzada entre los grupos de seguridad del lado de la base de datos y del lado del clúster. Para obtener más información, consulte Reglas del grupo de seguridad en la Guía del usuario de Amazon Virtual Private Cloud.

Configurar el TLS cifrado entre slurmdbd y el servidor de la base de datos

Con el valor predeterminado Slurm la configuración contable que AWS ParallelCluster proporciona slurmdbd establece una conexión TLS cifrada con el servidor de base de datos, si el servidor admite el TLS cifrado. AWS servicios de bases de datos como Amazon RDS y Amazon Aurora admiten el TLS cifrado de forma predeterminada.

Puede requerir conexiones seguras en el servidor configurando el parámetro require_secure_transport en el servidor de la base de datos. Esto se configura en la CloudFormation plantilla proporcionada.

Siguiendo las prácticas recomendadas de seguridad, le recomendamos que habilite también la verificación de identidad del servidor en el cliente de slurmdbd. Para ello, configure el StorageParametersenslurmdbd.conf. Cargue el certificado de entidad de certificación del servidor en el nodo principal del clúster. A continuación, slurmdbd.conf defina la opción SSL_CA de StorageParameters in en la ruta del certificado de CA del servidor en el nodo principal. De este modo, se habilita la verificación de la identidad del servidor en slurmdbd. Tras realizar estos cambios, reinicie el servicio slurmdbd para volver a establecer la conectividad con el servidor de la base de datos con la verificación de identidad habilitada.

Actualización de credenciales de la base de datos

Para actualizar los valores de Database/UserNameo PasswordSecretArn, primero debe detener la flota de procesamiento. Supongamos que el valor secreto que está almacenado en el AWS Secrets Manager secreto cambia y ARN no cambia. En esta situación, el clúster no actualiza automáticamente la contraseña de la base de datos con el nuevo valor. Para actualizar el clúster con el nuevo valor secreto, ejecute el siguiente comando desde el nodo principal.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
aviso

Para evitar perder datos de contabilidad, le recomendamos que cambie únicamente la contraseña de la base de datos cuando la flota de computación esté detenida.

Supervisión de la base de datos

Se recomienda activar las funciones de supervisión de los servicios de AWS base de datos. Para obtener más información, consulte la documentación sobre el RDSmonitoreo de Amazon o el monitoreo de Amazon Aurora.