Quelles configurations particulières sont HyperPod gérées dans les fichiers de configuration de Slurm - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Quelles configurations particulières sont HyperPod gérées dans les fichiers de configuration de Slurm

Lorsque vous créez un cluster Slurm sur HyperPod, l' HyperPod agent configure les gres.conffichiers slurm.confet /opt/slurm/etc/ pour gérer le cluster Slurm en fonction de votre demande de création de cluster et de vos scripts de HyperPod cycle de vie. La liste suivante indique les paramètres spécifiques que l' HyperPod agent gère et remplace.

Important

Nous vous recommandons vivement de ne pas modifier ces paramètres gérés par HyperPod.

  • Dans slurm.conf, HyperPod définit les paramètres de base suivants : ClusterNameSlurmctldHost,PartitionName, etNodeName.

    En outre, pour activer la Reprise automatique fonctionnalité, HyperPod les SchedulerParameters paramètres TaskPlugin et doivent être définis comme suit. L' HyperPod agent définit ces deux paramètres avec les valeurs requises par défaut.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • Dans gres.conf, HyperPod gère NodeName les GPU nœuds.