View a markdown version of this page

Configura il cluster Amazon EKS per i AI/ML carichi di lavoro - Amazon EKS

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configura il cluster Amazon EKS per i AI/ML carichi di lavoro

Suggerimento

Registrati ai prossimi AI/ML workshop Amazon EKS.

Questa sezione ti guida nella creazione di un cluster Amazon EKS pronto per eseguire carichi di lavoro di inferenza, tra cui l'elaborazione con GPU, lo stack di monitoraggio e lo storage Amazon S3 per i pesi dei modelli, insieme alle autorizzazioni IAM necessarie. AWS

Panoramica dell’architettura

La configurazione crea la seguente infrastruttura:

  • Cluster EKS con GPU-enabled nodi: A Karpenter-managed NodePool che fornisce dinamicamente istanze G-family GPU utilizzando la capacità Spot con fallback. On-Demand

  • Stack di monitoraggio: Prometheus analizza i parametri di cluster, nodi e GPU e li scrive in remoto su Amazon Managed Service for Prometheus (AMP). Grafana fornisce dashboard per la visualizzazione. NVIDIA DCGM Exporter aggiunge GPU-specific parametri tra cui utilizzo, memoria, temperatura, consumo energetico, larghezza di banda NVLink e attività dei tensori.

  • Bucket S3 per i pesi dei modelli: un bucket Amazon S3 per la memorizzazione dei pesi dei modelli, con un'associazione EKS Pod Identity che consente l'accesso ai pod dei carichi di lavoro. read/write

Opzioni di calcolo del cluster

La guida fornisce due percorsi per configurare il cluster. Scegline uno e seguilo in modo coerente in tutti i passaggi.

  • EKS Auto Mode: un singolo comando effettua il provisioning di un cluster EKS con EKS Auto Mode abilitato. Tutti i componenti richiesti vengono forniti immediatamente, tra cui l' Karpenter-based auto-scaling, l'agente di monitoraggio dei nodi EKS, il fast container pull con SOCI e il plug-in per dispositivi NVIDIA.

  • Self-managed Karpenter: puoi installare e configurare ogni componente in modo esplicito: Karpenter viaeksctl, riparazione automatica dei nodi tramite il suo feature gate, l'agente di monitoraggio dei nodi EKS come componente aggiuntivo EKS e il plug-in per dispositivi NVIDIA tramite Helm. Puoi anche creare una versione personalizzata EC2NodeClass che utilizza le AMI EKS-optimized NVIDIA AL2023 e configura SOCI.

Cosa configurerai

Fase Description

Crea un cluster

Esegui il provisioning del piano di controllo EKS e dei componenti a livello di cluster necessari per i carichi di lavoro GPU.

Crea nodi GPU con provisioning dinamico

Definisci una GPU dinamica che effettui il provisioning delle istanze G-family GPU NodePool man mano che vengono pianificati i carichi di lavoro.

Esegui il test con un contenitore di esempio

Convalida la configurazione dall'inizio alla fine eseguendo un nvidia-smi pod che attiva Karpenter per il provisioning di un nodo. GPU-enabled

Aggiungi capacità riservata (opzionale)

Allega un codice ODCR ( On-Demand Capacity Reserved-First) al tuo NodeClass indirizzo riservato con fallback. Spot/On-Demand

Installa il monitoraggio

Implementa kube-prometheus-stack (Prometheus + Grafana) con scrittura remota su AMP, oltre a NVIDIA DCGM Exporter per le metriche GPU.

Crea un bucket di pesi per modelli

Crea un bucket S3 e configura EKS Pod Identity in modo che i pod del carico di lavoro possano leggere e scrivere i pesi dei modelli.

Nozioni di base

Per istruzioni dettagliate sull'utilizzo della CLI, consulta AWS . Configura il cluster Amazon EKS per i AI/ML carichi di lavoro utilizzando le CLI