Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS
SageMaker HyperPod ist ein SageMaker verwalteter Service, der ein umfangreiches Training von Basismodellen auf langlebigen und belastbaren Rechenclustern ermöglicht und EKS zur Orchestrierung der HyperPod Rechenressourcen in Amazon integriert wird. Mithilfe von EKS Amazon-Clustern mit HyperPod Resilienzfunktionen, die nach verschiedenen Hardwarefehlern suchen und fehlerhafte Knoten automatisch wiederherstellen, können Sie ununterbrochene Trainingsjobs über Wochen oder Monate in großem Umfang ausführen.
Zu den wichtigsten Funktionen für Cluster-Administratoren gehören die folgenden.
-
Bereitstellung HyperPod robuster Cluster und deren Anbindung an eine EKS Kontrollebene
-
Ermöglicht dynamisches Kapazitätsmanagement, z. B. das Hinzufügen weiterer Knoten, das Aktualisieren von Software und das Löschen von Clustern
-
Direkter Zugriff auf die Clusterinstanzen über
kubectl
oderSSM/aktivieren SSH -
Bietet Resilienzfunktionen, darunter grundlegende Gesundheitschecks, eingehende Gesundheitschecks, einen Agenten zur Gesundheitsüberwachung und Unterstützung für die automatische Wiederaufnahme von Jobs PyTorch
-
Integration mit Observability-Tools wie Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus und Amazon Managed Grafana
Für Benutzer von Datenwissenschaftlern ermöglicht die EKS Unterstützung in HyperPod Folgendes.
-
Ausführung von containerisierten Workloads zum Trainieren von Basismodellen auf dem Cluster HyperPod
-
Inferenz auf dem EKS Cluster ausführen und dabei die Integration zwischen und nutzen HyperPod EKS
-
Nutzung der Funktion zur automatischen Wiederaufnahme von Jobs für PyTorch Kubeflow-Schulungen
() PyTorchJob
Die High-Level-Architektur des EKS Amazon-Supports HyperPod beinhaltet eine 1-zu-1-Zuordnung zwischen einem EKS Cluster (Kontrollebene) und einem HyperPod Cluster (Worker-Knoten) innerhalb einesVPC, wie in der folgenden Abbildung dargestellt.