Guida introduttiva al EKS supporto di Amazon in SageMaker HyperPod - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Guida introduttiva al EKS supporto di Amazon in SageMaker HyperPod

Oltre al modulo generale Prerequisiti per l'utilizzo di SageMaker HyperPod SageMaker HyperPod, consulta i seguenti requisiti e considerazioni per l'orchestrazione SageMaker HyperPod dei cluster con Amazon. EKS

Requisiti

Nota

Prima di creare un HyperPod cluster, è necessario un EKS cluster Amazon in esecuzione configurato VPC e installato con Helm.

  • Se utilizzi la SageMaker console, puoi creare un EKS cluster Amazon all'interno della pagina della console del HyperPod cluster. Per ulteriori informazioni, consulta Crea un SageMaker HyperPod cluster.

  • Se si utilizza AWS CLI, è necessario creare un EKS cluster Amazon prima di creare un HyperPod cluster a cui associarsi. Per ulteriori informazioni, consulta Creare un EKS cluster Amazon nella Amazon EKS User Guide.

Quando esegui il provisioning del tuo EKS cluster Amazon, considera quanto segue:

  1. Supporto della versione Kubernetes

    • SageMaker HyperPod supporta le versioni 1.28, 1.29 e 1.30 di Kubernetes.

  2. Modalità di autenticazione EKS del cluster Amazon

    • La modalità di autenticazione di un EKS cluster Amazon supportata da SageMaker HyperPod are API andAPI_AND_CONFIG_MAP.

  3. Reti

  4. IAMruoli

  5. Componenti aggiuntivi per EKS cluster Amazon

    • Puoi continuare a utilizzare i vari componenti aggiuntivi forniti da Amazon EKS come Kube-proxy, Core, DNS il CNIplug-in Amazon VPC Container Network Interface (), Amazon EKS pod identity, l'agente GuardDuty, il driver Amazon FSx Container Storage Interface (CSI), il driver Mountpoint per Amazon S3, il CSI AWS Distro for e l'agente Observability. OpenTelemetry CloudWatch

Considerazioni sulla configurazione dei SageMaker HyperPod cluster con Amazon EKS

  • Non è possibile montare EBS volumi aggiuntivi direttamente sui Pod in esecuzione sui nodi del cluster. HyperPod È invece necessario utilizzarlo per InstanceStorageConfigseffettuare il provisioning e montare EBS volumi aggiuntivi sui HyperPod nodi. È importante notare che è possibile collegare EBS volumi aggiuntivi a nuovi gruppi di istanze solo durante la creazione o l'aggiornamento di un HyperPod cluster. Dopo aver configurato i gruppi di istanze con questi EBS volumi aggiuntivi, nel file di configurazione di Amazon EKS Pod, dovrai impostare il percorso locale /opt/sagemaker per montare correttamente i volumi su Amazon EKS Pods.

  • Puoi distribuire il controller Amazon EBS CSI (Container Storage Interface) sui HyperPod nodi. Tuttavia, il EBS CSI nodo Amazon DaemonSet, che facilita il montaggio e lo smontaggio dei EBS volumi, può essere eseguito solo su non istanze. HyperPod Se utilizzi etichette di tipo di istanza per definire i vincoli di pianificazione, assicurati di utilizzare i tipi di istanza ML con il prefisso. SageMaker ml. Ad esempio, per le istanze P5, utilizzate invece di. ml.p5.48xlarge p5.48xlarge

Considerazioni sulla configurazione della rete per i SageMaker HyperPod cluster con Amazon EKS

  • Ogni istanza HyperPod del cluster supporta un'interfaccia di rete elastica (). ENI Per il numero massimo di Pod per tipo di istanza, fate riferimento alla tabella seguente.

    Tipo di istanza Numero massimo di pod
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml. p 5,48 x grande 49
    ml.trn 1,32 x grande 49
    ml.trn1 n. 32 x grande 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
  • Per impostazione predefinita, solo i Pod con hostNetwork = true accesso ad Amazon EC2 Instance Metadata Service (IMDS). Utilizza l'identità Amazon EKS Pod o i IAMruoli per gli account di servizio (IRSA) per gestire l'accesso a AWS credenziali per Pods.

  • SageMaker HyperPod i cluster attualmente supportano solo IPv4 l'indirizzamento IP. IPv6L'indirizzamento IP non è supportato in questo momento.

Considerazioni sull'utilizzo delle funzionalità di resilienza del HyperPod cluster

  • La sostituzione automatica dei nodi non è supportata per le CPU istanze.

  • L'agente di HyperPod monitoraggio dello stato deve essere installato affinché il ripristino automatico del nodo funzioni. L'agente può essere installato utilizzando Helm. Per ulteriori informazioni, consulta Installa pacchetti sul EKS cluster Amazon utilizzando Helm.

  • L'agente HyperPod Deep Health Check e Health Monitoring supporta GPU le istanze Trn.

  • SageMaker applica la seguente tinta ai nodi quando sono sottoposti a controlli di integrità approfonditi:

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Nota

    Non è possibile aggiungere colorazioni personalizzate ai nodi nei gruppi di istanze con DeepHealthChecks questa opzione attivata.

Una volta che il EKS cluster Amazon è in esecuzione, configura il cluster utilizzando il gestore di pacchetti Helm come indicato Installa pacchetti sul EKS cluster Amazon utilizzando Helm prima di creare il HyperPod cluster.