Ausführung von Jobs auf SageMaker HyperPod Clustern, die von Amazon orchestriert wurden EKS - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausführung von Jobs auf SageMaker HyperPod Clustern, die von Amazon orchestriert wurden EKS

Die folgenden Themen enthalten Verfahren und Beispiele für den Zugriff auf Rechenknoten und die Ausführung von ML-Workloads auf bereitgestellten SageMaker HyperPod Clustern, die mit Amazon orchestriert wurden. EKS Je nachdem, wie Sie die Umgebung auf Ihrem HyperPod Cluster eingerichtet haben, gibt es viele Möglichkeiten, ML-Workloads auf Clustern auszuführen. HyperPod

Tipp

Für praktische Erfahrungen und Anleitungen zur Einrichtung und Verwendung eines mit Amazon EKS orchestrierten SageMaker HyperPod Clusters empfehlen wir die Teilnahme an diesem Amazon EKS Support-Workshop. SageMaker HyperPod

Benutzer von Data Scientists können grundlegende Modelle trainieren, indem sie das EKS Cluster-Set als Orchestrator für den Cluster verwenden. SageMaker HyperPod Wissenschaftler nutzen die Befehle SageMaker HyperPod CLIund die systemeigenen kubectl Befehle, um verfügbare SageMaker HyperPod Cluster zu finden, Trainingsjobs (Pods) einzureichen und ihre Workloads zu verwalten. Das SageMaker HyperPod CLI ermöglicht die Einreichung von Jobs mithilfe einer Trainingsjob-Schemadatei und bietet Funktionen zur Jobauflistung, Beschreibung, Stornierung und Ausführung. Wissenschaftler können Kubeflow Training Operator, Kueue (K8s Tool für Job-Queuing) und SageMaker-managed verwenden, um ML-Experimente und Trainingsläufe MLflow zu verwalten.