Orchestrazione dei SageMaker HyperPod cluster con Slurm - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Orchestrazione dei SageMaker HyperPod cluster con Slurm

Il supporto di Slurm SageMaker HyperPod consente di fornire cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di state-of-the-art modelli come modelli di linguaggio di grandi dimensioni (), modelli di diffusione e modelli di base (LLMs). FMs Accelera lo sviluppo FMs eliminando gli oneri indifferenziati legati alla creazione e alla manutenzione di cluster di elaborazione su larga scala alimentati da migliaia di acceleratori come AWS Trainium e unità di elaborazione grafica A100 e H100 (). NVIDIA GPUs In caso di guasto degli acceleratori, le funzionalità di resilienza dei SageMaker HyperPod monitor e delle istanze del cluster rilevano e sostituiscono automaticamente l'hardware difettoso in modo che tu possa concentrarti sull'esecuzione di carichi di lavoro ML. Inoltre, con il supporto per la configurazione del ciclo di vita SageMaker HyperPod, puoi personalizzare il tuo ambiente di elaborazione per adattarlo al meglio alle tue esigenze e configurarlo con le librerie di formazione SageMaker distribuite di Amazon per ottenere prestazioni ottimali su AWS.

Cluster operativi

È possibile creare, configurare e gestire SageMaker HyperPod i cluster graficamente tramite l'interfaccia utente (UI) della console e programmaticamente tramite AWS interfaccia a riga di comando () o CLI AWS SDK for Python (Boto3). Con AmazonVPC, puoi proteggere la rete di cluster e anche trarre vantaggio dalla configurazione del cluster con risorse a tua disposizioneVPC, come Amazon FSx for Lustre, che offre il throughput più veloce. Puoi anche assegnare IAM ruoli diversi ai gruppi di istanze del cluster e limitare le azioni che le risorse e gli utenti del cluster possono eseguire. Per ulteriori informazioni, consulta Gestione dei SageMaker HyperPod cluster orchestati da Slurm.

Configurazione dell'ambiente ML

SageMaker HyperPod viene eseguitoSageMaker HyperPod DLAMI, che configura un ambiente ML sui HyperPod cluster. È possibile configurare personalizzazioni aggiuntive DLAMI fornendo script del ciclo di vita per supportare il proprio caso d'uso. Per ulteriori informazioni su come configurare gli script del ciclo di vita, consulta e. Guida introduttiva all'orchestrazione con Slurm SageMaker HyperPod SageMaker HyperPod best practice per la configurazione del ciclo di vita

Pianificazione dei lavori

Dopo aver creato correttamente un HyperPod cluster, gli utenti del cluster possono accedere ai nodi del cluster (come il nodo principale o controller, il nodo di accesso e il nodo di lavoro) e pianificare i lavori per l'esecuzione di carichi di lavoro di machine learning. Per ulteriori informazioni, consulta Esegui lavori su SageMaker HyperPod cluster.

Resilienza contro i guasti hardware

SageMaker HyperPod esegue controlli di integrità sui nodi del cluster e fornisce una funzionalità di ripristino automatico del carico di lavoro. Con le funzionalità di resilienza del cluster di HyperPod, puoi riprendere il carico di lavoro dall'ultimo checkpoint salvato, dopo che i nodi difettosi sono stati sostituiti con nodi integri in cluster con più di 16 nodi. Per ulteriori informazioni, consulta SageMaker HyperPod resilienza del cluster.

Registrazione e gestione dei cluster

Puoi trovare i parametri di utilizzo SageMaker HyperPod delle risorse e i log del ciclo di vita in Amazon e gestire le SageMaker HyperPod risorse CloudWatch etichettandole. Ogni CreateCluster API esecuzione crea un flusso di log distinto, denominato in base al formato. <cluster-name>-<timestamp> Nel flusso di log, è possibile controllare i nomi degli host, il nome degli script del ciclo di vita non riusciti e gli output degli script non riusciti, ad esempio e. stdout stderr Per ulteriori informazioni, consulta SageMaker HyperPod gestione dei cluster.

Compatibile con gli strumenti SageMaker

Utilizzando SageMaker HyperPod, puoi configurare i cluster con AWS librerie di comunicazioni collettive ottimizzate offerte da SageMaker, come la libreria SageMakerDistributed Data Parallelism () SMDDP. La SMDDP libreria implementa l'AllGatheroperazione ottimizzata per AWS infrastruttura di calcolo e di rete per le istanze di SageMaker machine learning più performanti basate su A100. NVIDIA GPUs Per ulteriori informazioni, consulta Esegui carichi di lavoro di formazione distribuiti con Slurm on HyperPod.