Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden der Benutzeroberfläche der SageMaker HyperPod Konsole
Erstellen Sie Ihren ersten SageMaker HyperPod Cluster mithilfe der SageMaker HyperPod Konsolen-Benutzeroberfläche.
Erstellen Sie Ihren ersten SageMaker HyperPod Cluster mit Slurm
Das folgende Tutorial zeigt, wie Sie einen neuen SageMaker HyperPod Cluster erstellen und ihn mit Slurm über die Benutzeroberfläche der SageMaker Konsole einrichten. Im Anschluss an das Tutorial erstellen Sie einen HyperPod Cluster mit drei Slurm-Knoten, my-controller-group
my-login-group
, und. worker-group-1
Öffnen Sie die SageMaker Amazon-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Wählen Sie im linken Navigationsbereich HyperPod Clusters aus.
-
Wählen Sie auf der Seite SageMaker HyperPod Cluster die Option Cluster erstellen aus.
-
Geben Sie in Schritt 1: Clustereinstellungen einen Namen für den neuen Cluster an. Überspringen Sie den Abschnitt „Tags“.
-
Fügen Sie in Schritt 2: Instanzgruppen Instanzgruppen hinzu. Jede Instanzgruppe kann anders konfiguriert werden, und Sie können einen heterogenen Cluster erstellen, der aus mehreren Instanzgruppen mit unterschiedlichen Instanztypen besteht. Damit Lebenszykluskonfigurationsskripte während der Clustererstellung auf der Instanzgruppe ausgeführt werden können, können Sie damit beginnen, die Lebenszyklus-Beispielskripte zu verwenden, die im Awsome Distributed GitHub Training-Repository
bereitgestellt werden. -
Geben Sie unter Name der Instanzgruppe einen Namen für die Instanzgruppe an. Erstellen Sie für dieses Tutorial drei Instanzgruppen mit den Namen
my-controller-group
my-login-group
, undworker-group-1
. -
Wählen Sie unter Instanztyp auswählen die Instanz für die Instanzgruppe aus. Wählen Sie für dieses Tutorial
ml.c5.xlarge
fürmy-controller-group
my-login-group
,ml.m5.4xlarge
für undml.trn1.32xlarge
für ausworker-group-1
.Stellen Sie sicher, dass Sie den Instance-Typ mit ausreichenden Kontingenten in Ihrem Konto wählen, oder fordern Sie zusätzliche Kontingente an, indem Sie unter folgenSageMaker HyperPod Kontingente.
-
Geben Sie für Menge eine Ganzzahl an, die das Instance-Kontingent für die Cluster-Nutzung nicht überschreitet. Geben Sie für dieses Tutorial 1 für alle drei Gruppen ein.
-
Geben Sie für S3-Pfad zu Lifecycle-Skriptdateien den Amazon S3 S3-Pfad ein, in dem Ihre Lifecycle-Skripts gespeichert sind. Wenn Sie nicht über Lebenszyklus-Skripten verfügen, führen Sie die folgenden Teilschritte durch, um die vom SageMaker HyperPod Serviceteam bereitgestellten Basis-Lebenszyklus-Skripten zu verwenden.
-
Klonen Sie das Awsome Distributed Training Repository GitHub
. git clone https://github.com/aws-samples/awsome-distributed-training/
-
Unter
1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config
finden Sie eine Reihe von grundlegenden Lebenszyklus-Skripten. Weitere Informationen zu den Lebenszyklusskripten finden Sie auch unterPassen Sie SageMaker HyperPod Cluster mithilfe von Lebenszyklusskripten an. -
Schreiben Sie eine Slurm-Konfigurationsdatei und speichern Sie sie unter.
provisioning_params.json
Geben Sie in der Datei grundlegende Slurm-Konfigurationsparameter an, um Slurm-Knoten den SageMaker HyperPod Cluster-Instanzgruppen ordnungsgemäß zuzuweisen. Sieprovisioning_params.json
sollten beispielsweise auf der Grundlage der HyperPod Cluster-Instanzgruppe, die in den vorherigen Schritten 5a, 5b und 5c konfiguriert wurde, wie folgt aussehen.{ "version": "1.0.0", "workload_manager": "
slurm
", "controller_group": "my-controller-group
", "login_group": "my-login-group
", "worker_groups": [ { "instance_group_name": "worker-group-1
", "partition_name": "partition-1
" } ] } -
Laden Sie die Skripts in Ihren Amazon S3 S3-Bucket hoch. Erstellen Sie einen S3-Bucket mit einem Pfad im folgenden Format:
s3://sagemaker-
. Sie können diesen Bucket mit der Amazon S3 S3-Konsole erstellen.<unique-s3-bucket-name>
/<lifecycle-script-directory>
/srcAnmerkung
Sie
sagemaker-
müssen dem S3-Bucket-Pfad ein Präfix hinzufügen, da IAMRolle für SageMaker HyperPod mit withAmazonSageMakerClusterInstanceRolePolicy
nur Prinzipalen auf S3-Buckets mit diesem speziellen Präfix zugreifen können.
-
-
Geben Sie für Verzeichnispfad zu Ihrem bei der Erstellung erstellten Lifecycle-Skript unter S3-Pfad zu Lifecycle-Skriptdateien den Dateinamen des Lifecycle-Skripts ein.
-
Wählen Sie unter IAMRolle die IAM Rolle aus, die Sie mithilfe
AmazonSageMakerClusterInstanceRolePolicy
von aus dem Abschnitt IAMRolle für SageMaker HyperPod erstellt haben. -
Unter Erweiterte Konfiguration können Sie die folgenden optionalen Konfigurationen einrichten.
-
(Optional) Geben Sie
1
für Threads pro Kern an, ob Multithreading deaktiviert und2
Multithreading aktiviert werden soll. Welcher Instance-Typ Multithreading unterstützt, finden Sie in der Referenztabelle mit CPUKernen und Threads pro CPU Kern und Instance-Typ im Amazon Elastic Compute Cloud-Benutzerhandbuch. -
(Optional) Geben Sie für zusätzliche Instance-Speicherkonfigurationen eine Ganzzahl zwischen 1 und 16384 an, um die Größe eines zusätzlichen Elastic Block Store (EBS) -Volumes in Gigabyte (GB) festzulegen. Das EBS Volume ist an jede Instanz der Instanzgruppe angehängt. Der Standard-Bereitstellungspfad für das zusätzliche EBS Volume lautet
/opt/sagemaker
. Nachdem der Cluster erfolgreich erstellt wurde, können Sie auf SSH die Cluster-Instanzen (Knoten) zugreifen und überprüfen, ob das EBS Volume korrekt gemountet wurde, indem Sie dendf -h
Befehl ausführen. Durch das Anhängen eines zusätzlichen EBS Volumes wird stabiler, instanzunabhängiger und unabhängig persistenter Speicher bereitgestellt, wie im Abschnitt EBSAmazon-Volumes im Amazon Elastic Block Store-Benutzerhandbuch beschrieben.
-
-
-
Richten Sie in Schritt 3: Erweiterte Konfiguration die Netzwerkeinstellungen innerhalb, innerhalb und außerhalb des Clusters ein. Wählen Sie Ihre eigene ausVPC, falls Sie bereits eine haben, die SageMaker Zugriff auf Ihre ermöglichtVPC. Wenn Sie noch keine haben, aber eine neue erstellen möchtenVPC, folgen Sie den Anweisungen unter Erstellen einer VPC im Amazon Virtual Private Cloud Cloud-Benutzerhandbuch. Sie können es auf Nein belassenVPC, um die Standardeinstellung zu verwenden SageMaker VPC.
-
Überprüfen Sie in Schritt 4: Überprüfen und erstellen die Konfiguration, die Sie in Schritt 1 bis 3 festgelegt haben, und schließen Sie das Senden der Anfrage zur Clustererstellung ab.
-
Der neue Cluster sollte im Hauptbereich der SageMaker HyperPod Konsole unter Cluster angezeigt werden. Sie können den Status überprüfen, der in der Spalte Status angezeigt wird.
-
Wenn der Status des Clusters den Status erreicht hat
InService
, können Sie mit der Anmeldung bei den Clusterknoten beginnen. Informationen zum Zugriff auf die Clusterknoten und zum Starten der Ausführung von ML-Workloads finden Sie unterJobs in SageMaker HyperPod Clustern.
Löschen Sie den Cluster und bereinigen Sie die Ressourcen
Nachdem Sie die Erstellung eines SageMaker HyperPod Clusters erfolgreich getestet haben, läuft er im InService
Status weiter, bis Sie den Cluster löschen. Wir empfehlen, dass Sie alle Cluster löschen, die mithilfe von SageMaker On-Demand-Instances erstellt wurden, wenn sie nicht verwendet werden, um zu vermeiden, dass weitere Servicegebühren aufgrund von On-Demand-Preisen anfallen. In diesem Tutorial haben Sie einen Cluster erstellt, der aus zwei Instanzgruppen besteht. Eine davon verwendet eine C5-Instance. Stellen Sie also sicher, dass Sie den Cluster löschen, indem Sie den Anweisungen unter Löschen Sie einen SageMaker HyperPod Cluster folgen.
Wenn Sie jedoch einen Cluster mit reservierter Rechenkapazität erstellt haben, hat der Status der Cluster keinen Einfluss auf die Serviceabrechnung.
Um die Lebenszyklusskripts aus dem für dieses Tutorial verwendeten S3-Bucket zu bereinigen, wechseln Sie zu dem S3-Bucket, den Sie bei der Clustererstellung verwendet haben, und entfernen Sie die Dateien vollständig.
Wenn Sie die Ausführung von Workloads auf dem Cluster getestet haben, vergewissern Sie sich, ob Sie Daten hochgeladen haben oder ob Ihr Job Artefakte in verschiedenen S3-Buckets oder Dateisystemdiensten wie Amazon FSx for Lustre und Amazon Elastic File System gespeichert hat. Um Gebühren zu vermeiden, löschen Sie alle Artefakte und Daten aus dem Speicher- oder Dateisystem.