Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS

SageMaker HyperPod ist ein SageMaker verwalteter Service, der ein umfangreiches Training von Basismodellen auf langlebigen und belastbaren Rechenclustern ermöglicht und EKS zur Orchestrierung der HyperPod Rechenressourcen in Amazon integriert wird. Mithilfe von EKS Amazon-Clustern mit HyperPod Resilienzfunktionen, die nach verschiedenen Hardwarefehlern suchen und fehlerhafte Knoten automatisch wiederherstellen, können Sie ununterbrochene Trainingsjobs über Wochen oder Monate in großem Umfang ausführen.

Zu den wichtigsten Funktionen für Cluster-Administratoren gehören die folgenden.

  • Bereitstellung HyperPod robuster Cluster und deren Anbindung an eine EKS Kontrollebene

  • Ermöglicht dynamisches Kapazitätsmanagement, z. B. das Hinzufügen weiterer Knoten, das Aktualisieren von Software und das Löschen von Clustern

  • Direkter Zugriff auf die Clusterinstanzen über kubectl oderSSM/aktivieren SSH

  • Bietet Resilienzfunktionen, darunter grundlegende Gesundheitschecks, eingehende Gesundheitschecks, einen Agenten zur Gesundheitsüberwachung und Unterstützung für die automatische Wiederaufnahme von Jobs PyTorch

  • Integration mit Observability-Tools wie Amazon CloudWatch Container Insights, Amazon Managed Service for Prometheus und Amazon Managed Grafana

Für Benutzer von Datenwissenschaftlern ermöglicht die EKS Unterstützung in HyperPod Folgendes.

  • Ausführung von containerisierten Workloads zum Trainieren von Basismodellen auf dem Cluster HyperPod

  • Inferenz auf dem EKS Cluster ausführen und dabei die Integration zwischen und nutzen HyperPod EKS

  • Nutzung der Funktion zur automatischen Wiederaufnahme von Jobs für PyTorch Kubeflow-Schulungen () PyTorchJob

Die High-Level-Architektur des EKS Amazon-Supports HyperPod beinhaltet eine 1-zu-1-Zuordnung zwischen einem EKS Cluster (Kontrollebene) und einem HyperPod Cluster (Worker-Knoten) innerhalb einesVPC, wie in der folgenden Abbildung dargestellt.

EKS and HyperPod VPC architecture with control plane, Cluster nodes, and AWS-Services.