Slurm comptabilité avec AWS ParallelCluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Slurm comptabilité avec AWS ParallelCluster

À partir de la version 3.3.0, prend en charge AWS ParallelCluster Slurm comptabilité avec le paramètre de configuration du cluster SlurmSettings/Database.

À partir de la version 3.10.0, prend en charge AWS ParallelCluster Slurm comptabilité avec un Slurmdbd externe avec le paramètre de configuration du cluster/. SlurmSettingsExternalSlurmdbd L'utilisation d'un Slurmdbd externe est recommandée si plusieurs clusters partagent la même base de données.

Avec Slurm comptabilité, vous pouvez intégrer une base de données comptable externe pour effectuer les opérations suivantes :

  • Gérez les utilisateurs du cluster ou les groupes d'utilisateurs et les autres entités. Grâce à cette fonctionnalité, vous pouvez utiliser Slurmdes fonctionnalités plus avancées, telles que l'application des limites de ressources, le fairshare etQOSs.

  • Collectez et enregistrez des données de travail, telles que l'utilisateur qui a exécuté le travail, la durée du travail et les ressources qu'il utilise. Vous pouvez consulter les données enregistrées à l'aide de l'sacctutilitaire.

Note

AWS ParallelCluster soutient Slurm comptabilité pour Slurm Mes serveurs de SQL base de données pris en charge.

Travailler avec Slurm comptabilité à l'aide d'outils externes Slurmdbd dans la AWS ParallelCluster version 3.10.0 et versions ultérieures

Avant de configurer Slurm comptabilité, vous devez avoir un compte externe existant Slurmdbd serveur de base de données, qui se connecte à un serveur de base de données externe existant.

Pour configurer cela, définissez les éléments suivants :

  • L'adresse de l'externe Slurmdbd serveur dans ExternalSlurmdbd/Host. Le serveur doit exister et être accessible depuis le nœud principal.

  • La touche munge pour communiquer avec l'extérieur Slurmdbd serveur dans MungeKeySecretArn.

Pour suivre un didacticiel étape par étape, voirCréation d'un cluster avec une Slurmdbd comptabilité externe.

Note

Vous êtes responsable de la gestion des Slurm entités comptables de base de données.

L'architecture de l' AWS ParallelCluster extérieur SlurmDB la fonction de support permet à plusieurs clusters de partager le même SlurmDB et la même base de données.

A flowchart depicting the Database Stack, Slurmdbd stack, PC Cluster Stack 1, and PC Cluster Stack 2. Containing components such as Slurmdbd instance, RDS Aurora MySQL Database, and Login nodes.

Avertissement

Trafic entre AWS ParallelCluster et vers l'extérieur SlurmDB n'est pas crypté. Il est recommandé d'exécuter le cluster et le module externe SlurmDB dans un réseau fiable.

Travailler avec Slurm comptabilité à l'aide du nœud principal Slurmdbd dans la AWS ParallelCluster version 3.3.0 et versions ultérieures

Avant de configurer Slurm comptabilité, vous devez disposer d'un serveur de base de données externe existant et d'une base de données utilisant mysql le protocole.

Pour configurer Slurm avec la comptabilité AWS ParallelCluster, vous devez définir les éléments suivants :

  • URIPour le serveur de base de données externe dans Database/Uri. Le serveur doit exister et être accessible depuis le nœud principal.

  • Informations d'identification pour accéder à la base de données externe définies dans Base de données/PasswordSecretArnet Base de données/UserName. AWS ParallelCluster utilise ces informations pour configurer la comptabilité au Slurm niveau et le slurmdbd service sur le nœud principal. slurmdbdest le daemon qui gère les communications entre le cluster et le serveur de base de données.

Pour suivre un didacticiel étape par étape, voirCréation d'un cluster avec Slurm comptabilité.

Note

AWS ParallelCluster effectue un bootstrap de base du Slurm base de données de comptabilité en définissant l'utilisateur du cluster par défaut comme administrateur de base de données dans Slurm base de données. AWS ParallelCluster n'ajoute aucun autre utilisateur à la base de données de comptabilité. Le client est responsable de la gestion des entités comptables dans Slurm base de données.

AWS ParallelCluster configure slurmdbdpour garantir qu'un cluster possède son propre Slurm base de données sur le serveur de base de données. Le même serveur de base de données peut être utilisé sur plusieurs clusters, mais chaque cluster possède sa propre base de données distincte. AWS ParallelCluster utilise le nom du cluster pour définir le nom de la base de données dans le StorageLocparamètre du fichier de slurmdbd configuration. Considérez la situation suivante. Une base de données présente sur le serveur de base de données inclut un nom de cluster qui ne correspond pas à un nom de cluster actif. Dans ce cas, vous pouvez créer un nouveau cluster portant ce nom de cluster pour le mapper à cette base de données. Slurm réutilise la base de données pour le nouveau cluster.

Avertissement
  • Il est déconseillé de configurer plusieurs clusters pour utiliser la même base de données à la fois. Cela peut entraîner des problèmes de performances ou même des situations de blocage de la base de données.

  • If Slurm la comptabilité étant activée sur le nœud principal d'un cluster, nous vous recommandons d'utiliser un type d'instance doté d'une puissanceCPU, d'une mémoire et d'une bande passante réseau plus importantes. Slurm la comptabilité peut alourdir la charge sur le nœud principal du cluster.

Dans l'architecture actuelle du AWS ParallelCluster Slurm fonctionnalité de comptabilité, chaque cluster possède sa propre instance du slurmdbd démon, comme le montrent les exemples de configuration du schéma suivant.

A configuration with two clusters that are connected to a MySQL server. Each cluster has their own slurmdbd daemon instance. Moreover, each cluster is connected to its own database through the server. Another configuration with a single cluster that has its own slurmdbd daemon instance. This configuration is connected to a MySQL server and is also connected to its own database through the server.

Si vous ajoutez une option personnalisée Slurm fonctionnalités multi-clusters ou de fédération pour votre environnement de cluster, tous les clusters doivent faire référence à la même slurmdbd instance. Pour cette alternative, nous vous recommandons d'activer AWS ParallelCluster Slurm comptabilité sur un cluster et configurez manuellement les autres clusters pour qu'ils se connectent à slurmdbd ceux qui sont hébergés sur le premier cluster.

Si vous utilisez des AWS ParallelCluster versions antérieures à la version 3.3.0, reportez-vous à la méthode alternative pour implémenter Slurm comptabilité décrite dans ce billet de HPCblog.

Slurm considérations comptables

Base de données et cluster sur différents VPCs

Pour activer Slurm En comptabilité, un serveur de base de données est nécessaire pour servir de backend aux opérations de lecture et d'écriture effectuées par le slurmdbd démon. Avant la création ou la mise à jour du cluster pour activer Slurm En comptabilité, le nœud principal doit pouvoir accéder au serveur de base de données.

Si vous devez déployer le serveur de base de données sur un serveur VPC autre que celui utilisé par le cluster, tenez compte des points suivants :

  • Pour permettre la communication entre le slurmdbd côté cluster et le serveur de base de données, vous devez configurer la connectivité entre les deuxVPCs. Pour plus d'informations, consultez VPCPeering dans le guide de l'utilisateur d'Amazon Virtual Private Cloud.

  • Vous devez créer le groupe de sécurité que vous souhaitez associer au nœud principal VPC du cluster. Une fois que les deux VPCs ont été comparés, la liaison croisée entre les groupes de sécurité côté base de données et côté cluster est disponible. Pour plus d'informations, consultez les règles des groupes de sécurité dans le guide de l'utilisateur d'Amazon Virtual Private Cloud.

Configuration du TLS chiffrement entre slurmdbd et le serveur de base de données

Avec la valeur par défaut Slurm configuration comptable qui AWS ParallelCluster fournit et slurmdbd établit une connexion TLS cryptée avec le serveur de base de données, si le serveur prend en charge le TLS chiffrement. AWS les services de base de données tels qu'Amazon RDS Amazon Aurora prennent en charge TLS le chiffrement par défaut.

Vous pouvez exiger des connexions sécurisées côté serveur en définissant le require_secure_transport paramètre sur le serveur de base de données. Ceci est configuré dans le CloudFormation modèle fourni.

Conformément aux meilleures pratiques de sécurité, nous vous recommandons d'activer également la vérification de l'identité du serveur sur le slurmdbd client. Pour ce faire, configurez le StorageParametersdans leslurmdbd.conf. Téléchargez le certificat CA du serveur sur le nœud principal du cluster. Ensuite, définissez l'option SSL_CA de StorageParameters in slurmdbd.conf sur le chemin du certificat CA du serveur sur le nœud principal. Cela permet de vérifier l'identité du serveur sur le slurmdbd côté. Après avoir apporté ces modifications, redémarrez le slurmdbd service pour rétablir la connectivité au serveur de base de données avec la vérification d'identité activée.

Mise à jour des identifiants de base de données

Pour mettre à jour les valeurs de Database/UserNameor PasswordSecretArn, vous devez d'abord arrêter le parc informatique. Supposons que la valeur secrète stockée dans le AWS Secrets Manager secret soit modifiée et qu'elle ne soit ARN pas modifiée. Dans ce cas, le cluster ne met pas automatiquement à jour le mot de passe de la base de données à la nouvelle valeur. Pour mettre à jour le cluster en fonction de la nouvelle valeur secrète, exécutez la commande suivante depuis le nœud principal.

$ sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Avertissement

Pour éviter de perdre des données comptables, nous vous recommandons de ne modifier le mot de passe de la base de données que lorsque le parc informatique est arrêté.

Surveillance des bases de données

Nous vous recommandons d'activer les fonctionnalités de surveillance des services de AWS base de données. Pour plus d'informations, consultez la documentation relative à la RDSsurveillance Amazon ou à la documentation relative à la surveillance Amazon Aurora.