Führen Sie Jobs mit dem aus SageMaker HyperPod CLI - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Führen Sie Jobs mit dem aus SageMaker HyperPod CLI

Um Jobs auszuführen, stellen Sie sicher, dass Sie Kubeflow Training Operator in den Clustern installiert haben. EKS Weitere Informationen finden Sie unter Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm.

Führen Sie den hyperpod get-cluster Befehl aus, um die Liste der verfügbaren HyperPod Cluster abzurufen.

hyperpod get-clusters

Führen Sie den aushyperpod connect-cluster, um den zu konfigurieren, SageMaker HyperPod CLI wobei der EKS Cluster den HyperPod Cluster orchestriert.

hyperpod connect-cluster --name <hyperpod-cluster-name>

Verwenden Sie den hyperpod start-job Befehl, um einen Job auszuführen. Der folgende Befehl zeigt den Befehl mit den erforderlichen Optionen.

hyperpod start-job \ --job-name <job-name> --image <docker-image-uri> --entry-script <entrypoint-script> --instance-type <ml.instance.type> --node-count <integer>

Der hyperpod start-job Befehl enthält auch verschiedene Optionen für die Widerstandsfähigkeit von Jobs

Automatische Wiederaufnahme von Jobs aktivieren

Der hyperpod start-job Befehl bietet auch die folgenden Optionen zur Angabe der automatischen Wiederaufnahme von Jobs. Damit die automatische Wiederaufnahme von Jobs mit den SageMaker HyperPod Knotenausfallfunktionen funktioniert, müssen Sie den Wert für die restart-policy Option auf festlegen. OnFailure Der Job muss unter dem kubeflow Namespace oder einem Namespace mit dem Präfix ausgeführt werden. hyperpod

  • [--auto-resume<bool>] #Optional, aktiviert die auto Wiederaufnahme des Jobs nach Fehlschlägen, die Standardeinstellung ist false

  • [--max-retry<int>] #Optional, wenn auto-resume wahr ist, ist der Standardwert für max-retry 1, falls nicht angegeben

  • <enum>[--restart-policy] #Optional, Richtlinie neu starten. PyTorchJob Verfügbare Werte sindAlways, OnFailure oder. Never ExitCode Der Standardwert ist OnFailure.

hyperpod start-job \ ... // required options \ --auto-resume true \ --max-retry 3 \ --restart-policy OnFailure

Jobs mit Planungsoptionen ausführen

Der hyperpod start-job Befehl bietet die folgenden Optionen, um den Job mit Warteschlangenmechanismen einzurichten.

Anmerkung

Sie müssen Kueue im Cluster installiert haben. EKS Wenn Sie es nicht installiert haben, folgen Sie den Anweisungen unterInstallieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm.

  • [--scheduler-type<enum>] #Optional, Geben Sie den Scheduler-Typ an. Der Standardwert ist Kueue.

  • [--queue-name<string>] #Optional, Geben Sie den Namen der lokalen Warteschlange oder Cluster-Warteschlange an, die Sie zusammen mit dem Job einreichen möchten. Die Warteschlange sollte von Cluster-Administratoren erstellt werden.

  • [--priority<string>] #Optional, Geben Sie den Namen der Workload-Prioritätsklasse an, die von Cluster-Administratoren erstellt werden soll.

hyperpod start-job \ ... // required options --scheduler-type Kueue \ --queue-name high-priority-queue \ --priority high

Jobs aus einer Konfigurationsdatei ausführen

Als Alternative können Sie eine Job-Konfigurationsdatei erstellen, die alle für den Job erforderlichen Parameter enthält, und diese Konfigurationsdatei dann mit der Option --config-file an den hyperpod start-job Befehl übergeben. In diesem Fall.

  1. Erstellen Sie Ihre Job-Konfigurationsdatei mit den erforderlichen Parametern. Eine Basiskonfigurationsdatei finden Sie in der Job-Konfigurationsdatei im SageMaker HyperPod CLI GitHub Repository.

  2. Starten Sie den Job mithilfe der Konfigurationsdatei wie folgt.

    hyperpod start-job --config-file /path/to/test_job.yaml

Weitere Informationen zur Liste der einzelnen Parameter des hyperpod start-job Befehls finden Sie im Abschnitt Einen Job einreichen im README.md SageMaker HyperPod CLI GitHub Repository.