Erste Schritte mit dem EKS Amazon-Support in SageMaker HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit dem EKS Amazon-Support in SageMaker HyperPod

Informieren Sie sich neben den allgemeinen Voraussetzungen für die Verwendung von SageMaker HyperPod Angaben SageMaker HyperPod über die folgenden Anforderungen und Überlegungen zur Orchestrierung von SageMaker HyperPod Clustern mithilfe von AmazonEKS.

Voraussetzungen

Anmerkung

Bevor Sie einen HyperPod Cluster erstellen, benötigen Sie einen laufenden EKS Amazon-Cluster, der mit Helm konfiguriert VPC und installiert wurde.

  • Wenn Sie die SageMaker Konsole verwenden, können Sie auf der EKS Cluster-Konsolenseite einen HyperPod Amazon-Cluster erstellen. Weitere Informationen finden Sie unter Erstellen Sie einen SageMaker HyperPod Cluster.

  • Wenn Sie AWS CLI, sollten Sie einen EKS Amazon-Cluster erstellen, bevor Sie einen HyperPod Cluster erstellen, mit dem Sie eine Verbindung herstellen möchten. Weitere Informationen finden Sie unter Erstellen eines EKS Amazon-Clusters im EKS Amazon-Benutzerhandbuch.

Beachten Sie bei der Bereitstellung Ihres EKS Amazon-Clusters Folgendes:

  1. Unterstützung der Kubernetes-Version

    • SageMaker HyperPod unterstützt die Kubernetes-Versionen 1.28, 1.29 und 1.30.

  2. EKSAmazon-Cluster-Authentifizierungsmodus

    • Der Authentifizierungsmodus eines EKS Amazon-Clusters, der von unterstützt wird, SageMaker HyperPod sind API undAPI_AND_CONFIG_MAP.

  3. Netzwerkfunktionen

    • SageMaker HyperPod erfordert das Amazon VPC Container Network Interface (CNI) -Plug-In Version 1.18.3 oder höher.

      Anmerkung

      AWS VPCCNIDas Plugin für Kubernetes wird nur von unterstützt. CNI SageMaker HyperPod

    • Der Typ des Subnetzes in Ihrem VPC muss für Cluster privat sein. HyperPod

  4. IAMRollen

  5. Amazon EKS Cluster-Add-Ons

    • Sie können die verschiedenen von Amazon bereitgestellten Add-Ons EKS wie Kube-Proxy, Core DNS, das Amazon VPC Container Network Interface (CNI) -Plugin, Amazon EKS Pod Identity, den GuardDuty Agenten, den Amazon FSx Container Storage Interface (CSI) -Treiber, den Mountpoint for Amazon S3 S3-Treiber, den CSI AWS Distribution für und den OpenTelemetry Observability-Agenten. CloudWatch

Überlegungen zur Konfiguration von SageMaker HyperPod Clustern mit Amazon EKS

  • Sie können zusätzliche EBS Volumes nicht direkt in Pods einbinden, die auf HyperPod Clusterknoten ausgeführt werden. Stattdessen müssen Sie zusätzliche EBS Volumes bereitstellen und auf den HyperPod Knoten bereitstellen. InstanceStorageConfigs Es ist wichtig zu beachten, dass Sie neuen Instanzgruppen nur zusätzliche EBS Volumes zuordnen können, wenn Sie einen HyperPod Cluster erstellen oder aktualisieren. Nachdem Sie Instanzgruppen mit diesen zusätzlichen EBS Volumes konfiguriert haben, müssen Sie in Ihrer Amazon EKS Pod-Konfigurationsdatei den lokalen Pfad festlegen, /opt/sagemaker um die Volumes ordnungsgemäß auf Ihren Amazon EKS Pods zu mounten.

  • Sie können den Amazon-Controller EBS CSI (Container Storage Interface) auf HyperPod Knoten bereitstellen. Der EBS CSI Amazon-Knoten DaemonSet, der das Ein- und Aushängen von EBS Volumes erleichtert, kann jedoch nur auf HyperPod Nicht-Instances ausgeführt werden. Wenn Sie Instance-Typ-Labels zur Definition von Scheduling-Einschränkungen verwenden, stellen Sie sicher, dass Sie die SageMaker ML-Instance-Typen mit dem Präfix verwenden. ml. Verwenden Sie beispielsweise für P5-Instanzen anstelle von. ml.p5.48xlarge p5.48xlarge

Überlegungen zur Netzwerkkonfiguration für SageMaker HyperPod Cluster mit Amazon EKS

  • Jede HyperPod Cluster-Instance unterstützt ein Elastic Network Interface (ENI). Die maximale Anzahl von Pods pro Instance-Typ finden Sie in der folgenden Tabelle.

    Instance-Typ Maximale Anzahl von Pods
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p 5.48x groß 49
    ml.trn 1,32 x groß 49
    ml.trn1n.32x groß 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml. 5 n. groß 9
    ml.c5n.2 x groß 14
    ml.c5n.4x groß 29
    ml.c5n.9x groß 29
    ml.c5n.18x groß 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
  • Standardmäßig hostNetwork = true haben nur Pods Zugriff auf den Amazon EC2 Instance Metadata Service (IMDS). Verwenden Sie die EKS Amazon-Pod-Identität oder die IAMRollen für Dienstkonten (IRSA), um den Zugriff auf AWS Anmeldeinformationen für Pods.

  • SageMaker HyperPod Cluster unterstützen derzeit nur IPv4 IP-Adressierung. IPv6IP-Adressierung wird derzeit nicht unterstützt.

Überlegungen zur Verwendung der HyperPod Cluster-Resilienzfunktionen

  • Die automatische Knotenersetzung wird für CPU Instances nicht unterstützt.

  • Der HyperPod Health Monitoring Agent muss installiert sein, damit die automatische Wiederherstellung des Knotens funktioniert. Der Agent kann mit Helm installiert werden. Weitere Informationen finden Sie unter Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm.

  • Der Agent für HyperPod eingehende Integritätsprüfungen und Gesundheitsüberwachung unterstützt GPU und Trn-Instanzen.

  • SageMaker wendet den folgenden Fehler auf Knoten an, wenn sie tiefgreifenden Integritätsprüfungen unterzogen werden:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Anmerkung

    Sie können Knoten in Instanzgruppen, die DeepHealthChecks aktiviert sind, keine benutzerdefinierten Taints hinzufügen.

Sobald Ihr EKS Amazon-Cluster läuft, konfigurieren Sie Ihren Cluster mit dem Helm-Paketmanager, wie unter beschrieben, Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm bevor Sie Ihren HyperPod Cluster erstellen.