Amazon SageMaker HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon SageMaker HyperPod

SageMaker HyperPod hilft Ihnen bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie großen Sprachmodellen (LLMs), Diffusionsmodellen und Basismodellen (FMs). Es beschleunigt die Entwicklung von, FMs indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern wie AWS Trainium und NVIDIA A100 und H100 Graphical Processing Units () angetrieben werden. GPUs Wenn Beschleuniger ausfallen, erkennen und ersetzen die Resilienzfunktionen von SageMaker HyperPod Monitor the Cluster Instances die fehlerhafte Hardware automatisch im laufenden Betrieb, sodass Sie sich auf die Ausführung von ML-Workloads konzentrieren können.

Überprüfen Sie zunächst eine der folgenden Orchestrator-OptionenVoraussetzungen für die Verwendung von SageMaker HyperPod, die von unterstützt werdenAWS Identity and Access Management für SageMaker HyperPod, und richten Sie sie ein und wählen Sie sie aus. SageMaker HyperPod

Slurm-Unterstützung in SageMaker HyperPod

SageMaker HyperPod bietet Unterstützung für die Ausführung von Machine-Learning-Workloads auf belastbaren Clustern durch die Integration mit Slurm, einem Open-Source-Workload-Manager. Die Slurm-Unterstützung SageMaker HyperPod ermöglicht eine nahtlose Cluster-Orchestrierung durch die Slurm-Cluster-Konfiguration, sodass Sie Head-, Anmelde- und Worker-Knoten auf den SageMaker HyperPod Clustern einrichten können. Diese Integration erleichtert auch die SLURM-basierte Jobplanung für die Ausführung von ML-Workloads auf dem Cluster sowie den direkten Zugriff auf Clusterknoten für die Jobplanung. Mit HyperPod der Unterstützung für die Lebenszykluskonfiguration können Sie die Computerumgebung der Cluster an Ihre spezifischen Anforderungen anpassen. Darüber hinaus können Sie durch die Nutzung der von Amazon SageMaker verteilten Schulungsbibliotheken die Leistung der Cluster in Bezug auf AWS Computer- und Netzwerkressourcen optimieren. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Slurm.

EKSAmazon-Unterstützung in SageMaker HyperPod

SageMaker HyperPod lässt sich auch in Amazon integrierenEKS, um ein umfangreiches Training von Basismodellen auf langlebigen und belastbaren Rechenclustern zu ermöglichen. Auf diese Weise können Cluster-Administratoren HyperPod Cluster bereitstellen und sie an eine EKS Steuerungsebene anhängen, was ein dynamisches Kapazitätsmanagement, direkten Zugriff auf Cluster-Instances und Resilienzfunktionen ermöglicht. Für Datenwissenschaftler HyperPod ermöglicht Amazon EKS Support in die Ausführung containerisierter Workloads für das Training von Basismodellen, Inferenzen auf dem EKS Cluster und die Nutzung der Funktion zur automatischen Wiederaufnahme von Jobs für Kubeflow-Schulungen. PyTorch Die Architektur beinhaltet eine 1:1 -Zuordnung zwischen einem EKS Cluster (Kontrollebene) und einem HyperPod Cluster (Worker-Knoten) innerhalb eines und bietet so eine eng integrierte Lösung für die Ausführung umfangreicher VPC ML-Workloads. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.

AWS-Regionen unterstützt von SageMaker HyperPod

SageMaker HyperPod ist im Folgenden verfügbar AWS-Regionen.

  • us-east-1

  • us-east-2

  • us-west-2

  • eu-central-1

  • eu-west-1

  • eu-north-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-northeast-1