Welche speziellen Konfigurationen werden in HyperPod den Slurm-Konfigurationsdateien verwaltet - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Welche speziellen Konfigurationen werden in HyperPod den Slurm-Konfigurationsdateien verwaltet

Wenn Sie einen Slurm-Cluster erstellen HyperPod, richtet der HyperPod Agent die gres.confDateien slurm.confund die Dateien unter ein, /opt/slurm/etc/ um den Slurm-Cluster auf der Grundlage Ihrer Anfrage zur Clustererstellung und Ihrer HyperPod Lebenszyklusskripte zu verwalten. Die folgende Liste zeigt, welche spezifischen Parameter der HyperPod Agent verarbeitet und überschreibt.

Wichtig

Es wird dringend empfohlen, diese von HyperPod verwalteten Parameter nicht zu ändern.

  • slurm.confIn HyperPod richtet die folgenden grundlegenden Parameter ein: ClusterNameSlurmctldHost,PartitionName, undNodeName.

    Um die Automatische Wiederaufnahme Funktionalität zu aktivieren, HyperPod müssen außerdem die SchedulerParameters Parameter TaskPlugin und wie folgt festgelegt werden. Der HyperPod Agent richtet diese beiden Parameter standardmäßig mit den erforderlichen Werten ein.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • In gres.conf, HyperPod verwaltet NodeName für GPU-Knoten.