SageMaker HyperPod Versionshinweise von Amazon - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPod Versionshinweise von Amazon

In den folgenden Versionshinweisen werden die neuesten Updates für Amazon SageMaker HyperPod beschrieben. In diesen Versionshinweisen werden neue Funktionen, Korrekturen und Verbesserungen gegenüber der Vorgängerversion beschrieben.

SageMaker HyperPod Versionshinweise: 10. September 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

Neue Features

SageMaker HyperPod DLAMIfür EKS Amazon-Support

Im Folgenden finden Sie eine zusammengefasste Liste der Pakete, die im Support von Amazon EKS vorinstalliert oder vorkonfiguriert sind. SageMaker HyperPod DLAMIs Jedes DLAMIs basiert auf Amazon Linux 2 (AL2) und unterstützt eine bestimmte Kubernetes-Version.

AMIsDazu gehören die folgenden:

Deep Learning EKS AMI 1.28
  • EKSAmazon-Komponenten

    • Kubernetes-Version: 1.28.11

    • Enthaltene Version: 1.7.20

    • Runc-Version: 1.1.11

    • AWS IAMAuthentifikator: 0.6.21

  • SSMAmazon-Agent: 3.3.380

  • Linux-Kernel: 5.10.223

  • OSSNVIDIATreiber: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstallateur: 1.32.0

  • GDRCopy: 2.4

  • NVIDIAContainer-Toolkit: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21,41,0

  • aws-neuronx-oci-hook: 2,4,4,0-1

  • aws-neuronx-dkms: 2.17.17,0

  • aws-neuronx-collectives: 2,21,46,0

Deep Learning EKS AMI 1.29
  • EKSAmazon-Komponenten

    • Kubernetes-Version: 1.29.6

    • Enthaltene Version: 1.7.20

    • Runc-Version: 1.1.11

    • AWS IAMAuthentifikator: 0.6.21

  • SSMAmazon-Agent: 3.3.380

  • Linux-Kernel: 5.10.223

  • OSSNvidia-Treiber: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstallateur: 1.32.0

  • GDRCopy: 2.4

  • Nvidia-Container-Toolkit: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21,41,0

  • aws-neuronx-oci-hook: 2,4,4,0-1

  • aws-neuronx-dkms: 2.17.17,0

  • aws-neuronx-collectives: 2,21,46,0

Deep Learning EKS AMI 1.30
  • EKSAmazon-Komponenten

    • Kubernetes-Version: 1.30.2

    • Enthaltene Version: 1.7.20

    • Runc-Version: 1.1.11

    • AWS IAMAuthentifikator: 0.6.21

  • SSMAmazon-Agent: 3.3.380

  • Linux-Kernel: 5.10.223

  • OSSNvidia-Treiber: 535.183.01

  • NVIDIACUDA: 12.2

  • EFAInstallateur: 1.32.0

  • GDRCopy: 2.4

  • Nvidia-Container-Toolkit: 1.16.1

  • AWS OFINCCL: 1.9.1

  • aws-neuronx-tools: 2,18,3,0-1

  • aws-neuronx-runtime-lib: 2,21,41,0

  • aws-neuronx-oci-hook: 2,4,4,0-1

  • aws-neuronx-dkms: 2.17.17,0

  • aws-neuronx-collectives: 2,21,46,0

SageMaker HyperPod DLAMIfür Slurm-Unterstützung

Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Im Folgenden finden Sie Informationen zu den neuesten Entwicklungen HyperPod DLAMI für Slurm.

Anmerkung

Anweisungen zur Aktualisierung vorhandener HyperPod Cluster mit der neuesten Version finden Sie HyperPod DLAMI unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

  • Der NVIDIA Treiber v550.90.07 wurde installiert

  • Hat den EFA Treiber v2.10 installiert

  • Die neueste Version von Neuron wurde installiert AWS SDK

    • aws-neuronx-collectives: v2.21.46.0

    • aws-neuronx-dkms: v2.17.17.0

    • aws-neuronx-oci-hook: v2.4.4.0

    • aws-neuronx-runtime-lib: v2.21.41.0

    • aws-neuronx-tools: v2.18.3.0

SageMaker HyperPod Versionshinweise: 20. August 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Die Funktion zur SageMaker HyperPod automatischen Wiederaufnahme wurde verbessert und die Resilienzfähigkeit für Slurm-Knoten erweitert, die mit Generic RESources () verbunden sind. GRES

    Wenn Generic Resources (GRES) an einen Slurm-Knoten angehängt werden, erlaubt Slurm in der Regel keine Änderungen an der Knotenzuweisung, wie z. B. das Ersetzen von Knoten, und erlaubt somit nicht, einen fehlgeschlagenen Job wieder aufzunehmen. Sofern nicht ausdrücklich verboten, setzt die Funktion zur HyperPod automatischen Wiederaufnahme automatisch alle fehlerhaften Jobs, die mit den -aktivierten Knoten verknüpft sind, erneut in die GRES Warteschlange. Bei diesem Vorgang wird der Job gestoppt, wieder in die Auftragswarteschlange gestellt und der Job dann von vorne neu gestartet.

Andere Änderungen

  • Vorverpackt slurmrestdin der SageMaker HyperPod AMI.

  • Die Standardwerte für ResumeTimeout und UnkillableStepTimeout von 60 Sekunden auf 300 Sekunden wurden geändert, um die Reaktionsfähigkeit des Systems und die Auftragsverarbeitung slurm.conf zu verbessern.

  • Bei den Integritätsprüfungen für NVIDIA Data Center GPU Manager (DCGM) und The NVIDIA System Management Interface (nvidia-smi) wurden geringfügige Verbesserungen vorgenommen.

Fehlerkorrekturen

  • Das HyperPod Auto-Resume-Plug-in kann inaktive Knoten verwenden, um einen Job wieder aufzunehmen.

Schritte zum Upgrade

  • Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

    Wichtig

    Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

SageMaker HyperPod Versionshinweise: 20. Juni 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Es wurde eine neue Funktion hinzugefügt, um zusätzlichen Speicher an SageMaker HyperPod Clusterinstanzen anzuhängen. Mit dieser Funktion können Sie zusätzlichen Speicher auf der Konfigurationsebene der Instanzgruppe während der Clustererstellungs- oder Aktualisierungsprozesse konfigurieren, entweder über die SageMaker HyperPod Konsole oder über CreateClusterund UpdateClusterAPIs. Das zusätzliche EBS Volume wird an jede Instanz innerhalb eines SageMaker HyperPod Clusters angehängt und dort bereitgestellt/opt/sagemaker. Weitere Informationen zur Implementierung in Ihrem SageMaker HyperPod Cluster finden Sie in der aktualisierten Dokumentation auf den folgenden Seiten.

    Beachten Sie, dass Sie die HyperPod Clustersoftware aktualisieren müssen, um diese Funktion nutzen zu können. Nach dem Patchen der HyperPod Clustersoftware können Sie diese Funktion für bestehende SageMaker HyperPod Cluster nutzen, die vor dem 20. Juni 2024 erstellt wurden, indem Sie neue Instanzgruppen hinzufügen. Diese Funktion ist für alle SageMaker HyperPod Cluster, die nach dem 20. Juni 2024 erstellt wurden, voll wirksam.

Schritte zum Upgrade

  • Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

    Wichtig

    Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

SageMaker HyperPod Versionshinweise: 24. April 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Fehlerkorrekturen

  • Ein Fehler mit dem ThreadsPerCore Parameter in der wurde behoben ClusterInstanceGroupSpecificationAPI. Mit dem Fix nehmen die CreateClusterund die Benutzereingaben UpdateClusterAPIskorrekt auf und wenden sie anThreadsPerCore. Dieser Fix ist für HyperPod Cluster wirksam, die nach dem 24. April 2024 erstellt wurden. Wenn Sie Probleme mit diesem Fehler hatten und diesen Fix auf Ihren Cluster anwenden möchten, müssen Sie einen neuen Cluster erstellen. Stellen Sie sicher, dass Sie Ihre Arbeit sichern und wiederherstellen, während Sie zu einem neuen Cluster wechseln. Folgen Sie dabei den Anweisungen unterVerwenden Sie das Backup-Skript von SageMaker HyperPod.

SageMaker HyperPod Versionshinweise: 27. März 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

HyperPod Software-Patch

Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.

  • In dieser Version von wurde Slurm mit REST service (slurmestd) mit JSONYAML, und JWT Support erstellt. HyperPod DLAMI

  • Slurm wurde auf Version 23.11.3 aktualisiert

Schritte zum Upgrade

  • Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

    Wichtig

    Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

Verbesserungen

  • Das Timeout für die automatische Wiederaufnahme des Dienstes wurde auf 60 Minuten erhöht.

  • Der Prozess zum Ersetzen von Instanzen wurde verbessert, sodass der Slurm-Controller nicht neu gestartet wird.

  • Verbesserte Fehlermeldungen beim Ausführen von Lifecycle-Skripten, wie z. B. Download-Fehler und Fehler bei der Integritätsprüfung der Instanz beim Start der Instanz.

Fehlerkorrekturen

  • Es wurde ein Fehler mit dem Chrony Service behoben, der ein Problem mit der Zeitsynchronisierung verursachte.

  • Ein Fehler beim slurm.conf Parsen wurde behoben.

  • Ein Problem mit der NVIDIAgo-dcgmBibliothek wurde behoben.

SageMaker HyperPod Versionshinweise: 14. März 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

HyperPod DLAMIfür den Slurm-Softwarepatch

Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.

Schritte zum Upgrade

  • Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

    Wichtig

    Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Anmerkung

    Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.

Verbesserungen

SageMaker HyperPod Versionshinweise: 15. Februar 2024

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Es wurde ein neues UpdateClusterSoftware API für SageMaker HyperPod Sicherheitspatches hinzugefügt. Wenn Sicherheitspatches verfügbar werden, empfehlen wir Ihnen, vorhandene SageMaker HyperPod Cluster in Ihrem Konto zu aktualisieren, indem Sie Folgendes ausführenaws sagemaker update-cluster-software --cluster-name your-cluster-name: Um über future Sicherheitspatches auf dem Laufenden zu bleiben, sollten Sie diese Seite mit den SageMaker HyperPod Versionshinweisen von Amazon weiter verfolgen. Informationen zur UpdateClusterSoftware API Funktionsweise finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.

SageMaker HyperPod Versionshinweise: 29. November 2023

SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.

Neue Features

  • Amazon wurde SageMaker HyperPod auf der AWS re:Invent 2023 vorgestellt.

HyperPod Software-Patch

Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.

  • Basiert auf der AWS Deep Learning Base GPU AMI (Ubuntu 20.04), die am 18.10.2023 veröffentlicht wurde

  • Eine vollständige Liste der vorinstallierten Pakete ist zusätzlich zur Basis enthalten HyperPod DLAMI AMI

    • Slurm: v23.02.3

    • Munge: v0.5.15

    • aws-neuronx-dkms: v2. *

    • aws-neuronx-collectives: v2. *

    • aws-neuronx-runtime-lib: v2. *

    • aws-neuronx-tools: v2. *

    • SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme