Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erste Schritte mit dem EKS Amazon-Support in SageMaker HyperPod
Informieren Sie sich neben den allgemeinen Voraussetzungen für die Verwendung von SageMaker HyperPod Angaben SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von AmazonEKS.
Voraussetzungen
Anmerkung
Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden EKS Amazon-Cluster, der mit Helm konfiguriert VPC und installiert wurde.
-
Wenn Sie die SageMaker Konsole verwenden, können Sie auf der EKS Cluster-Konsolenseite einen HyperPod Amazon-Cluster erstellen. Weitere Informationen finden Sie unter Erstellen Sie einen SageMaker HyperPod Cluster.
-
Wenn Sie AWS CLI, sollten Sie einen EKS Amazon-Cluster erstellen, bevor Sie einen HyperPod Cluster erstellen, mit dem Sie eine Verbindung herstellen möchten. Weitere Informationen finden Sie unter Erstellen eines EKS Amazon-Clusters im EKS Amazon-Benutzerhandbuch.
Beachten Sie bei der Bereitstellung Ihres EKS Amazon-Clusters Folgendes:
-
Unterstützung der Kubernetes-Version
-
SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29 und 1.30.
-
-
EKSAmazon-Cluster-Authentifizierungsmodus
-
Der Authentifizierungsmodus eines EKS Amazon-Clusters, der von unterstützt wird, SageMaker HyperPod sind
API
undAPI_AND_CONFIG_MAP
.
-
-
Netzwerkfunktionen
-
SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.
Anmerkung
AWS VPCCNIDas Plugin für Kubernetes
wird nur von unterstützt. CNI SageMaker HyperPod -
Der Typ des Subnetzes in Ihrem VPC muss für Cluster privat sein. HyperPod
-
-
IAMRollen
-
Stellen Sie sicher, dass die erforderlichen IAM Rollen für wie im AWS Identity and Access Management für SageMaker HyperPod Abschnitt beschrieben eingerichtet HyperPod sind.
-
-
Amazon EKS Cluster-Add-Ons
-
Sie können die verschiedenen von Amazon bereitgestellten Add-Ons EKS wie Kube-Proxy, Core DNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS Pod Identity, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 S3-Treiber, den CSI AWS Distribution für und den OpenTelemetry Observability-Agenten. CloudWatch
-
Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS
-
Sie können zusätzliche EBS Volumes nicht direkt in Pods einbinden, die auf HyperPod Clusterknoten ausgeführt werden. Stattdessen müssen Sie zusätzliche EBS Volumes bereitstellen und auf den HyperPod Knoten bereitstellen. InstanceStorageConfigs Es ist wichtig zu beachten, dass Sie neuen Instanzgruppen nur zusätzliche EBS Volumes zuordnen können, wenn Sie einen HyperPod Cluster erstellen oder aktualisieren. Nachdem Sie Instanzgruppen mit diesen zusätzlichen EBS Volumes konfiguriert haben, müssen Sie in Ihrer Amazon EKS Pod-Konfigurationsdatei den lokalen Pfad
festlegen, /opt/sagemaker
um die Volumes ordnungsgemäß auf Ihren Amazon EKS Pods zu mounten. -
Sie können den Amazon-Controller EBS CSI (Container Storage Interface) auf HyperPod Knoten bereitstellen. Der EBS CSI Amazon-Knoten DaemonSet, der das Ein- und Aushängen von EBS Volumes erleichtert, kann jedoch nur auf HyperPod Nicht-Instances ausgeführt werden. Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker ML-Instance-Typen mit dem Präfix verwenden.
ml.
Verwenden Sie beispielsweise für P5-Instanzen anstelle von.ml.p5.48xlarge
p5.48xlarge
Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS
-
Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.
Instance-Typ Maximale Anzahl von Pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p 5.48x groß 49 ml.trn 1,32 x groß 49 ml.trn1n.32x groß 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml. 5 n. groß 9 ml.c5n.2 x groß 14 ml.c5n.4x groß 29 ml.c5n.9x groß 29 ml.c5n.18x groß 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 -
Standardmäßig
hostNetwork = true
haben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die EKS Amazon-Pod-Identität oder die IAMRollen für Dienstkonten (IRSA), um den Zugriff auf AWS Anmeldeinformationen für Pods. -
SageMaker HyperPod Cluster unterstützen derzeit nur IPv4 IP-Adressierung. IPv6IP-Adressierung wird derzeit nicht unterstützt.
Überlegungen zur Verwendung der HyperPod Cluster-Resilienzfunktionen
Die automatische Knotenersetzung wird für CPU Instances nicht unterstützt.
Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm.
-
Der Agent für HyperPod eingehende Integritätsprüfungen und Gesundheitsüberwachung unterstützt GPU und Trn-Instanzen.
-
SageMaker wendet den folgenden Fehler auf Knoten an, wenn sie tiefgreifenden Integritätsprüfungen unterzogen werden:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
Anmerkung
Sie können Knoten in Instanzgruppen, die
DeepHealthChecks
aktiviert sind, keine benutzerdefinierten Taints hinzufügen.
Sobald Ihr EKS Amazon-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.