Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Slurm comptabilité avec AWS ParallelCluster
À partir de la version 3.3.0, prend en charge AWS ParallelCluster Slurm comptabilité avec le paramètre de configuration du cluster SlurmSettings/Database.
À partir de la version 3.10.0, prend en charge AWS ParallelCluster Slurm comptabilité avec un Slurmdbd externe avec le paramètre de configuration du cluster/. SlurmSettingsExternalSlurmdbd L'utilisation d'un Slurmdbd externe est recommandée si plusieurs clusters partagent la même base de données.
Avec Slurm comptabilité, vous pouvez intégrer une base de données comptable externe pour effectuer les opérations suivantes :
-
Gérez les utilisateurs du cluster ou les groupes d'utilisateurs et les autres entités. Grâce à cette fonctionnalité, vous pouvez utiliser Slurmdes fonctionnalités plus avancées, telles que l'application des limites de ressources, le fairshare etQOSs.
-
Collectez et enregistrez des données de travail, telles que l'utilisateur qui a exécuté le travail, la durée du travail et les ressources qu'il utilise. Vous pouvez consulter les données enregistrées à l'aide de l'
sacct
utilitaire.
Note
AWS ParallelCluster soutient Slurm comptabilité pour Slurm Mes serveurs de SQL base de données pris en charge
Travailler avec Slurm comptabilité à l'aide d'outils externes Slurmdbd dans la AWS ParallelCluster version 3.10.0 et versions ultérieures
Avant de configurer Slurm comptabilité, vous devez avoir un compte externe existant Slurmdbd serveur de base de données, qui se connecte à un serveur de base de données externe existant.
Pour configurer cela, définissez les éléments suivants :
-
L'adresse de l'externe Slurmdbd serveur dans ExternalSlurmdbd/Host. Le serveur doit exister et être accessible depuis le nœud principal.
-
La touche munge pour communiquer avec l'extérieur Slurmdbd serveur dans MungeKeySecretArn.
Pour suivre un didacticiel étape par étape, voirCréation d'un cluster avec une Slurmdbd comptabilité externe.
Note
Vous êtes responsable de la gestion des Slurm entités comptables de base de données.
L'architecture de l' AWS ParallelCluster extérieur SlurmDB la fonction de support permet à plusieurs clusters de partager le même SlurmDB et la même base de données.
Avertissement
Trafic entre AWS ParallelCluster et vers l'extérieur SlurmDB n'est pas crypté. Il est recommandé d'exécuter le cluster et le module externe SlurmDB dans un réseau fiable.
Travailler avec Slurm comptabilité à l'aide du nœud principal Slurmdbd dans la AWS ParallelCluster version 3.3.0 et versions ultérieures
Avant de configurer Slurm comptabilité, vous devez disposer d'un serveur de base de données externe existant et d'une base de données utilisant mysql
le protocole.
Pour configurer Slurm avec la comptabilité AWS ParallelCluster, vous devez définir les éléments suivants :
-
URIPour le serveur de base de données externe dans Database/Uri. Le serveur doit exister et être accessible depuis le nœud principal.
-
Informations d'identification pour accéder à la base de données externe définies dans Base de données/PasswordSecretArnet Base de données/UserName. AWS ParallelCluster utilise ces informations pour configurer la comptabilité au Slurm niveau et le
slurmdbd
service sur le nœud principal.slurmdbd
est le daemon qui gère les communications entre le cluster et le serveur de base de données.
Pour suivre un didacticiel étape par étape, voirCréation d'un cluster avec Slurm comptabilité.
Note
AWS ParallelCluster effectue un bootstrap de base du Slurm base de données de comptabilité en définissant l'utilisateur du cluster par défaut comme administrateur de base de données dans Slurm base de données. AWS ParallelCluster n'ajoute aucun autre utilisateur à la base de données de comptabilité. Le client est responsable de la gestion des entités comptables dans Slurm base de données.
AWS ParallelCluster configure slurmdbd
StorageLoc
slurmdbd
configuration. Considérez la situation suivante. Une base de données présente sur le serveur de base de données inclut un nom de cluster qui ne correspond pas à un nom de cluster actif. Dans ce cas, vous pouvez créer un nouveau cluster portant ce nom de cluster pour le mapper à cette base de données. Slurm réutilise la base de données pour le nouveau cluster.
Avertissement
-
Il est déconseillé de configurer plusieurs clusters pour utiliser la même base de données à la fois. Cela peut entraîner des problèmes de performances ou même des situations de blocage de la base de données.
-
If Slurm la comptabilité étant activée sur le nœud principal d'un cluster, nous vous recommandons d'utiliser un type d'instance doté d'une puissanceCPU, d'une mémoire et d'une bande passante réseau plus importantes. Slurm la comptabilité peut alourdir la charge sur le nœud principal du cluster.
Dans l'architecture actuelle du AWS ParallelCluster Slurm fonctionnalité de comptabilité, chaque cluster possède sa propre instance du slurmdbd
démon, comme le montrent les exemples de configuration du schéma suivant.
Si vous ajoutez une option personnalisée Slurm fonctionnalités multi-clusters ou de fédération pour votre environnement de cluster, tous les clusters doivent faire référence à la même slurmdbd
instance. Pour cette alternative, nous vous recommandons d'activer AWS ParallelCluster Slurm comptabilité sur un cluster et configurez manuellement les autres clusters pour qu'ils se connectent à slurmdbd
ceux qui sont hébergés sur le premier cluster.
Si vous utilisez des AWS ParallelCluster versions antérieures à la version 3.3.0, reportez-vous à la méthode alternative pour implémenter Slurm comptabilité décrite dans ce billet de HPCblog
Slurm considérations comptables
Base de données et cluster sur différents VPCs
Pour activer Slurm En comptabilité, un serveur de base de données est nécessaire pour servir de backend aux opérations de lecture et d'écriture effectuées par le slurmdbd
démon. Avant la création ou la mise à jour du cluster pour activer Slurm En comptabilité, le nœud principal doit pouvoir accéder au serveur de base de données.
Si vous devez déployer le serveur de base de données sur un serveur VPC autre que celui utilisé par le cluster, tenez compte des points suivants :
-
Pour permettre la communication entre le
slurmdbd
côté cluster et le serveur de base de données, vous devez configurer la connectivité entre les deuxVPCs. Pour plus d'informations, consultez VPCPeering dans le guide de l'utilisateur d'Amazon Virtual Private Cloud. -
Vous devez créer le groupe de sécurité que vous souhaitez associer au nœud principal VPC du cluster. Une fois que les deux VPCs ont été comparés, la liaison croisée entre les groupes de sécurité côté base de données et côté cluster est disponible. Pour plus d'informations, consultez les règles des groupes de sécurité dans le guide de l'utilisateur d'Amazon Virtual Private Cloud.
Configuration du TLS chiffrement entre slurmdbd
et le serveur de base de données
Avec la valeur par défaut Slurm configuration comptable qui AWS ParallelCluster fournit et slurmdbd
établit une connexion TLS cryptée avec le serveur de base de données, si le serveur prend en charge le TLS chiffrement. AWS les services de base de données tels qu'Amazon RDS Amazon Aurora prennent en charge TLS le chiffrement par défaut.
Vous pouvez exiger des connexions sécurisées côté serveur en définissant le require_secure_transport
paramètre sur le serveur de base de données. Ceci est configuré dans le CloudFormation modèle fourni.
Conformément aux meilleures pratiques de sécurité, nous vous recommandons d'activer également la vérification de l'identité du serveur sur le slurmdbd
client. Pour ce faire, configurez le StorageParametersslurmdbd.conf
. Téléchargez le certificat CA du serveur sur le nœud principal du cluster. Ensuite, définissez l'option SSL_CAStorageParameters
in slurmdbd.conf
sur le chemin du certificat CA du serveur sur le nœud principal. Cela permet de vérifier l'identité du serveur sur le slurmdbd
côté. Après avoir apporté ces modifications, redémarrez le slurmdbd
service pour rétablir la connectivité au serveur de base de données avec la vérification d'identité activée.
Mise à jour des identifiants de base de données
Pour mettre à jour les valeurs de Database/UserNameor PasswordSecretArn, vous devez d'abord arrêter le parc informatique. Supposons que la valeur secrète stockée dans le AWS Secrets Manager secret soit modifiée et qu'elle ne soit ARN pas modifiée. Dans ce cas, le cluster ne met pas automatiquement à jour le mot de passe de la base de données à la nouvelle valeur. Pour mettre à jour le cluster en fonction de la nouvelle valeur secrète, exécutez la commande suivante depuis le nœud principal.
$
sudo /opt/parallelcluster/scripts/slurm/update_slurm_database_password.sh
Avertissement
Pour éviter de perdre des données comptables, nous vous recommandons de ne modifier le mot de passe de la base de données que lorsque le parc informatique est arrêté.
Surveillance des bases de données
Nous vous recommandons d'activer les fonctionnalités de surveillance des services de AWS base de données. Pour plus d'informations, consultez la documentation relative à la RDSsurveillance Amazon ou à la documentation relative à la surveillance Amazon Aurora.