Orchestrierung von SageMaker HyperPod Clustern mit Slurm

Die Slurm-Unterstützung SageMaker HyperPod unterstützt Sie bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie großen Sprachmodellen (LLMs), Diffusionsmodellen und Basismodellen (). FMs Es beschleunigt die Entwicklung von, FMs indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern unterstützt werden, z. B. AWS Grafikprozessoren Trainium und NVIDIA A100 und H100 (). GPUs Wenn Beschleuniger ausfallen, erkennen die Ausfallsicherheitsfunktionen der SageMaker HyperPod Monitore die fehlerhafte Hardware automatisch und ersetzen sie im laufenden Betrieb, sodass Sie sich auf die Ausführung von ML-Workloads konzentrieren können. Darüber hinaus können Sie mit Unterstützung für die Lebenszykluskonfiguration Ihre Computerumgebung optimal an Ihre Bedürfnisse anpassen und sie mit den von Amazon SageMaker verteilten Schulungsbibliotheken konfigurieren, um eine optimale Leistung zu erzielen SageMaker HyperPod AWS.

Betrieb von Clustern

Sie können SageMaker HyperPod Cluster grafisch über die Benutzeroberfläche (UI) der Konsole und programmgesteuert über die AWS Befehlszeilenschnittstelle () oder CLI AWS SDK for Python (Boto3). Mit Amazon VPC können Sie das Cluster-Netzwerk sichern und auch die Vorteile der Konfiguration Ihres Clusters mit Ressourcen in Ihrem nutzenVPC, z. B. Amazon FSx for Lustre, das den schnellsten Durchsatz bietet. Sie können Cluster-Instance-Gruppen auch unterschiedliche IAM Rollen zuweisen und die Aktionen einschränken, die Ihre Cluster-Ressourcen und Benutzer ausführen können. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Betrieb.

Konfiguration Ihrer ML-Umgebung

SageMaker HyperPod läuftSageMaker HyperPod DLAMI, wodurch eine ML-Umgebung auf den HyperPod Clustern eingerichtet wird. Sie können zusätzliche Anpassungen für konfigurieren, DLAMI indem Sie Lifecycle-Skripten zur Unterstützung Ihres Anwendungsfalls bereitstellen. Weitere Informationen zum Einrichten von Lebenszyklusskripten finden Sie unter Tutorial für die ersten Schritte mit SageMaker HyperPod undPassen Sie SageMaker HyperPod Cluster mithilfe von Lebenszyklusskripten an.

Jobs planen

Nachdem Sie einen HyperPod Cluster erfolgreich erstellt haben, können sich Clusterbenutzer bei den Clusterknoten (wie dem Head- oder Controller-Knoten, dem Anmeldeknoten und dem Worker-Knoten) anmelden und Jobs für die Ausführung von Workloads für maschinelles Lernen planen. Weitere Informationen hierzu finden Sie unter Jobs in SageMaker HyperPod Clustern.

Resilienz gegen Hardwareausfälle

SageMaker HyperPod führt Integritätsprüfungen auf Clusterknoten durch und bietet eine Funktion zur automatischen Wiederaufnahme der Arbeitslast. Mit den Cluster-Resilienzfunktionen von HyperPod können Sie Ihre Arbeitslast ab dem letzten Checkpoint fortsetzen, den Sie gespeichert haben, nachdem fehlerhafte Knoten in Clustern mit mehr als 16 Knoten durch fehlerfreie ersetzt wurden. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Cluster-Resilienz.

Cluster protokollieren und verwalten

Sie können Kennzahlen zur SageMaker HyperPod Ressourcennutzung und Lebenszyklusprotokolle in Amazon finden und SageMaker HyperPod Ressourcen verwalten CloudWatch, indem Sie sie taggen. Jeder CreateCluster API Lauf erstellt einen eigenen Protokollstream, der im <cluster-name>-<timestamp> Format benannt ist. Im Protokollstream können Sie die Hostnamen, die Namen fehlgeschlagener Lebenszyklusskripts und die Ausgaben der fehlgeschlagenen Skripten wie stdout und überprüfenstderr. Weitere Informationen finden Sie unter SageMaker HyperPod Clusterverwaltung.

Kompatibel mit SageMaker Tools

Mithilfe von SageMaker HyperPod können Sie Cluster konfigurieren mit AWS optimierte Bibliotheken für kollektive Kommunikation, die von angeboten werden SageMaker, wie z. B. die Bibliothek SageMakerDistributed Data Parallelism (SMDDP). Die SMDDP Bibliothek implementiert die AllGather Operation optimiert für AWS Rechen- und Netzwerkinfrastruktur für die leistungsfähigsten SageMaker maschinellen Lerninstanzen, die auf NVIDIA GPUs A100 basieren. Weitere Informationen hierzu finden Sie unter Führen Sie verteilte Trainingsworkloads mit aktiviertem Slurm aus HyperPod.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

IAMfür HyperPod

Erste Schritte mit SageMaker HyperPod