Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Versionshinweise von Amazon
In den folgenden Versionshinweisen werden die neuesten Updates für Amazon SageMaker HyperPod beschrieben. In diesen Versionshinweisen werden neue Funktionen, Korrekturen und Verbesserungen gegenüber der Vorgängerversion beschrieben.
SageMaker HyperPod Versionshinweise: 10. September 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
Neue Features
-
EKSAmazon-Unterstützung in hinzugefügt SageMaker HyperPod. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
SageMaker HyperPod DLAMIfür EKS Amazon-Support
Im Folgenden finden Sie eine zusammengefasste Liste der Pakete, die im Support von Amazon EKS vorinstalliert oder vorkonfiguriert sind. SageMaker HyperPod DLAMIs Jedes DLAMIs basiert auf Amazon Linux 2 (AL2) und unterstützt eine bestimmte Kubernetes-Version.
AMIsDazu gehören die folgenden:
SageMaker HyperPod DLAMIfür Slurm-Unterstützung
Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI Im Folgenden finden Sie Informationen zu den neuesten Entwicklungen HyperPod DLAMI für Slurm.
Anmerkung
Anweisungen zur Aktualisierung vorhandener HyperPod Cluster mit der neuesten Version finden Sie HyperPod DLAMI unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
-
Der NVIDIA Treiber v550.90.07 wurde installiert
-
Hat den EFA Treiber v2.10 installiert
-
Die neueste Version von Neuron wurde installiert AWS SDK
-
aws-neuronx-collectives: v2.21.46.0
-
aws-neuronx-dkms: v2.17.17.0
-
aws-neuronx-oci-hook: v2.4.4.0
-
aws-neuronx-runtime-lib: v2.21.41.0
-
aws-neuronx-tools: v2.18.3.0
-
SageMaker HyperPod Versionshinweise: 20. August 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Die Funktion zur SageMaker HyperPod automatischen Wiederaufnahme wurde verbessert und die Resilienzfähigkeit für Slurm-Knoten erweitert, die mit Generic RESources () verbunden sind. GRES
Wenn Generic Resources (GRES)
an einen Slurm-Knoten angehängt werden, erlaubt Slurm in der Regel keine Änderungen an der Knotenzuweisung, wie z. B. das Ersetzen von Knoten, und erlaubt somit nicht, einen fehlgeschlagenen Job wieder aufzunehmen. Sofern nicht ausdrücklich verboten, setzt die Funktion zur HyperPod automatischen Wiederaufnahme automatisch alle fehlerhaften Jobs, die mit den -aktivierten Knoten verknüpft sind, erneut in die GRES Warteschlange. Bei diesem Vorgang wird der Job gestoppt, wieder in die Auftragswarteschlange gestellt und der Job dann von vorne neu gestartet.
Andere Änderungen
-
Vorverpackt
slurmrestd
in der SageMaker HyperPod AMI. -
Die Standardwerte für
ResumeTimeout
undUnkillableStepTimeout
von 60 Sekunden auf 300 Sekunden wurden geändert, um die Reaktionsfähigkeit des Systems und die Auftragsverarbeitungslurm.conf
zu verbessern. -
Bei den Integritätsprüfungen für NVIDIA Data Center GPU Manager (DCGM) und The NVIDIA System Management Interface (nvidia-smi) wurden geringfügige Verbesserungen vorgenommen.
Fehlerkorrekturen
-
Das HyperPod Auto-Resume-Plug-in kann inaktive Knoten verwenden, um einen Job wieder aufzunehmen.
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Anmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
SageMaker HyperPod Versionshinweise: 20. Juni 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Es wurde eine neue Funktion hinzugefügt, um zusätzlichen Speicher an SageMaker HyperPod Clusterinstanzen anzuhängen. Mit dieser Funktion können Sie zusätzlichen Speicher auf der Konfigurationsebene der Instanzgruppe während der Clustererstellungs- oder Aktualisierungsprozesse konfigurieren, entweder über die SageMaker HyperPod Konsole oder über
CreateCluster
undUpdateCluster
APIs. Das zusätzliche EBS Volume wird an jede Instanz innerhalb eines SageMaker HyperPod Clusters angehängt und dort bereitgestellt/opt/sagemaker
. Weitere Informationen zur Implementierung in Ihrem SageMaker HyperPod Cluster finden Sie in der aktualisierten Dokumentation auf den folgenden Seiten.Beachten Sie, dass Sie die HyperPod Clustersoftware aktualisieren müssen, um diese Funktion nutzen zu können. Nach dem Patchen der HyperPod Clustersoftware können Sie diese Funktion für bestehende SageMaker HyperPod Cluster nutzen, die vor dem 20. Juni 2024 erstellt wurden, indem Sie neue Instanzgruppen hinzufügen. Diese Funktion ist für alle SageMaker HyperPod Cluster, die nach dem 20. Juni 2024 erstellt wurden, voll wirksam.
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Anmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
SageMaker HyperPod Versionshinweise: 24. April 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Fehlerkorrekturen
-
Ein Fehler mit dem
ThreadsPerCore
Parameter in der wurde behobenClusterInstanceGroupSpecification
API. Mit dem Fix nehmen dieCreateCluster
und die BenutzereingabenUpdateCluster
APIskorrekt auf und wenden sie anThreadsPerCore
. Dieser Fix ist für HyperPod Cluster wirksam, die nach dem 24. April 2024 erstellt wurden. Wenn Sie Probleme mit diesem Fehler hatten und diesen Fix auf Ihren Cluster anwenden möchten, müssen Sie einen neuen Cluster erstellen. Stellen Sie sicher, dass Sie Ihre Arbeit sichern und wiederherstellen, während Sie zu einem neuen Cluster wechseln. Folgen Sie dabei den Anweisungen unterVerwenden Sie das Backup-Skript von SageMaker HyperPod.
SageMaker HyperPod Versionshinweise: 27. März 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
HyperPod Software-Patch
Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.
-
In dieser Version von wurde Slurm mit REST service (
slurmestd
) mit JSONYAML, und JWT Support erstellt. HyperPod DLAMI -
Slurm
wurde auf Version 23.11.3 aktualisiert
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Anmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
Verbesserungen
-
Das Timeout für die automatische Wiederaufnahme des Dienstes wurde auf 60 Minuten erhöht.
-
Der Prozess zum Ersetzen von Instanzen wurde verbessert, sodass der Slurm-Controller nicht neu gestartet wird.
-
Verbesserte Fehlermeldungen beim Ausführen von Lifecycle-Skripten, wie z. B. Download-Fehler und Fehler bei der Integritätsprüfung der Instanz beim Start der Instanz.
Fehlerkorrekturen
-
Es wurde ein Fehler mit dem Chrony Service behoben, der ein Problem mit der Zeitsynchronisierung verursachte.
-
Ein Fehler beim
slurm.conf
Parsen wurde behoben. -
Ein Problem mit der NVIDIA
go-dcgm
Bibliothek wurde behoben.
SageMaker HyperPod Versionshinweise: 14. März 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
HyperPod DLAMIfür den Slurm-Softwarepatch
Das HyperPod Serviceteam verteilt Softwarepatches über. SageMaker HyperPod DLAMI In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.
-
Slurm
wurde auf v23.11.1 aktualisiert -
O penPMIx
v4.2.6 zur Aktivierung von Slurm mit hinzugefügt. PMIx -
Basiert auf der AWS Deep Learning Base GPU AMI (Ubuntu 20.04
), die am 26.10.2023 veröffentlicht wurde -
Eine vollständige Liste der vorinstallierten Pakete ist zusätzlich zur Basis enthalten HyperPod DLAMI AMI
-
Slurm
: v23.11.1 -
Betriebssystem penPMIx
: v4.2.6 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme
-
Schritte zum Upgrade
-
Führen Sie den folgenden Befehl aus, UpdateClusterSoftwareAPIum den aufzurufen und Ihre vorhandenen HyperPod Cluster mit den neuesten Versionen zu aktualisieren HyperPod DLAMI. Weitere Anweisungen finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
Wichtig
Erstellen Sie eine Sicherungskopie Ihrer Arbeit, bevor Sie dies ausführenAPI. Beim Patchen wird das Root-Volume durch das aktualisierte ersetzt. Das bedeutetAMI, dass Ihre zuvor im Instance-Root-Volume gespeicherten Daten verloren gehen. Stellen Sie sicher, dass Sie Ihre Daten vom Instance-Root-Volume auf Amazon S3 oder Amazon FSx for Lustre sichern. Weitere Informationen finden Sie unter Verwenden Sie das Backup-Skript von SageMaker HyperPod.
aws sagemaker update-cluster-software --cluster-name
your-cluster-name
Anmerkung
Beachten Sie, dass Sie den AWS CLI Befehl ausführen sollten, um Ihren HyperPod Cluster zu aktualisieren. Das Aktualisieren der HyperPod Software über die Benutzeroberfläche der SageMaker HyperPod Konsole ist derzeit nicht verfügbar.
Verbesserungen
-
HyperPod unterstützt jetzt korrekt die Übergabe von Partitionsnamen, die über bereitgestellt wurden,
provisioning_params.json
und erstellt Partitionen entsprechend auf der Grundlage der bereitgestellten Eingaben. Weitere Informationen zuprovisioning_params.json
finden Sie unter SageMaker HyperPod formulare und Passen Sie SageMaker HyperPod Cluster mithilfe von Lebenszyklusskripten an.
SageMaker HyperPod Versionshinweise: 15. Februar 2024
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Es wurde ein neues
UpdateClusterSoftware
API für SageMaker HyperPod Sicherheitspatches hinzugefügt. Wenn Sicherheitspatches verfügbar werden, empfehlen wir Ihnen, vorhandene SageMaker HyperPod Cluster in Ihrem Konto zu aktualisieren, indem Sie Folgendes ausführenaws sagemaker update-cluster-software --cluster-name
: Um über future Sicherheitspatches auf dem Laufenden zu bleiben, sollten Sie diese Seite mit den SageMaker HyperPod Versionshinweisen von Amazon weiter verfolgen. Informationen zuryour-cluster-name
UpdateClusterSoftware
API Funktionsweise finden Sie unterAktualisieren Sie die SageMaker HyperPod Plattformsoftware eines Clusters.
SageMaker HyperPod Versionshinweise: 29. November 2023
SageMaker HyperPod veröffentlicht das Folgende fürOrchestrierung von SageMaker HyperPod Clustern mit Slurm.
Neue Features
-
Amazon wurde SageMaker HyperPod auf der AWS re:Invent 2023 vorgestellt.
HyperPod Software-Patch
Das HyperPod Serviceteam verteilt Softwarepatches überSageMaker HyperPod DLAMI. In den folgenden Informationen finden Sie die neuesten HyperPod DLAMI Informationen.
-
Basiert auf der AWS Deep Learning Base GPU AMI (Ubuntu 20.04), die am 18.10.2023
veröffentlicht wurde -
Eine vollständige Liste der vorinstallierten Pakete ist zusätzlich zur Basis enthalten HyperPod DLAMI AMI
-
Slurm
: v23.02.3 -
Munge: v0.5.15
-
aws-neuronx-dkms
: v2. * -
aws-neuronx-collectives
: v2. * -
aws-neuronx-runtime-lib
: v2. * -
aws-neuronx-tools
: v2. * -
SageMaker HyperPod Softwarepakete zur Unterstützung von Funktionen wie Cluster-Integritätsprüfung und automatischer Wiederaufnahme
-