Panoramica dell’architettura Opzioni di calcolo del cluster Cosa configurerai Nozioni di base

Contribuisci a migliorare questa pagina

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Per contribuire a questa guida per l'utente, scegli il GitHub link Modifica questa pagina nel riquadro destro di ogni pagina.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configura il cluster Amazon EKS per i AI/ML carichi di lavoro

Suggerimento

Registrati ai prossimi AI/ML workshop Amazon EKS.

Questa sezione ti guida nella creazione di un cluster Amazon EKS pronto per eseguire carichi di lavoro di inferenza, tra cui l'elaborazione con GPU, lo stack di monitoraggio e lo storage Amazon S3 per i pesi dei modelli, insieme alle autorizzazioni IAM necessarie. AWS

Panoramica dell’architettura

La configurazione crea la seguente infrastruttura:

Cluster EKS con GPU-enabled nodi: A Karpenter-managed NodePool che fornisce dinamicamente istanze G-family GPU utilizzando la capacità Spot con fallback. On-Demand
Stack di monitoraggio: Prometheus analizza i parametri di cluster, nodi e GPU e li scrive in remoto su Amazon Managed Service for Prometheus (AMP). Grafana fornisce dashboard per la visualizzazione. NVIDIA DCGM Exporter aggiunge GPU-specific parametri tra cui utilizzo, memoria, temperatura, consumo energetico, larghezza di banda NVLink e attività dei tensori.
Bucket S3 per i pesi dei modelli: un bucket Amazon S3 per la memorizzazione dei pesi dei modelli, con un'associazione EKS Pod Identity che consente l'accesso ai pod dei carichi di lavoro. read/write

Opzioni di calcolo del cluster

La guida fornisce due percorsi per configurare il cluster. Scegline uno e seguilo in modo coerente in tutti i passaggi.

EKS Auto Mode: un singolo comando effettua il provisioning di un cluster EKS con EKS Auto Mode abilitato. Tutti i componenti richiesti vengono forniti immediatamente, tra cui l' Karpenter-based auto-scaling, l'agente di monitoraggio dei nodi EKS, il fast container pull con SOCI e il plug-in per dispositivi NVIDIA.
Self-managed Karpenter: puoi installare e configurare ogni componente in modo esplicito: Karpenter viaeksctl, riparazione automatica dei nodi tramite il suo feature gate, l'agente di monitoraggio dei nodi EKS come componente aggiuntivo EKS e il plug-in per dispositivi NVIDIA tramite Helm. Puoi anche creare una versione personalizzata EC2NodeClass che utilizza le AMI EKS-optimized NVIDIA AL2023 e configura SOCI.

Cosa configurerai

Fase	Description
Crea un cluster	Esegui il provisioning del piano di controllo EKS e dei componenti a livello di cluster necessari per i carichi di lavoro GPU.
Crea nodi GPU con provisioning dinamico	Definisci una GPU dinamica che effettui il provisioning delle istanze G-family GPU NodePool man mano che vengono pianificati i carichi di lavoro.
Esegui il test con un contenitore di esempio	Convalida la configurazione dall'inizio alla fine eseguendo un `nvidia-smi` pod che attiva Karpenter per il provisioning di un nodo. GPU-enabled
Aggiungi capacità riservata (opzionale)	Allega un codice ODCR ( On-Demand Capacity Reserved-First) al tuo NodeClass indirizzo riservato con fallback. Spot/On-Demand
Installa il monitoraggio	Implementa kube-prometheus-stack (Prometheus + Grafana) con scrittura remota su AMP, oltre a NVIDIA DCGM Exporter per le metriche GPU.
Crea un bucket di pesi per modelli	Crea un bucket S3 e configura EKS Pod Identity in modo che i pod del carico di lavoro possano leggere e scrivere i pesi dei modelli.

Nozioni di base

Per istruzioni dettagliate sull'utilizzo della CLI, consulta AWS . Configura il cluster Amazon EKS per i AI/ML carichi di lavoro utilizzando le CLI

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

AI/ML su EKS

Command-line interfaccia (CLI)