Amazon SageMaker HyperPod

Modalità Focus

Amazon SageMaker HyperPod - Amazon SageMaker AI

Regioni AWS supportato da SageMaker HyperPod

SageMaker HyperPod ti aiuta a fornire cluster resilienti per l'esecuzione di carichi di lavoro di machine learning (ML) e lo sviluppo di state-of-the-art modelli come modelli di linguaggio di grandi dimensioni (LLMs), modelli di diffusione e modelli di base (). FMs Accelera lo sviluppo FMs eliminando gli oneri indifferenziati legati alla creazione e alla manutenzione di cluster di elaborazione su larga scala alimentati da migliaia di acceleratori come Trainium e NVIDIA A100 e H100 Graphical Processing Unit (). AWS GPUs In caso di guasto degli acceleratori, le funzionalità di resilienza delle istanze di SageMaker HyperPod Monitor the Cluster rilevano e sostituiscono automaticamente l'hardware difettoso in modo che tu possa concentrarti sull'esecuzione di carichi di lavoro ML.

Per iniziare, controllaPrerequisiti per l'utilizzo di SageMaker HyperPod, configura AWS Identity and Access Management per SageMaker HyperPod e scegli una delle seguenti opzioni di orchestrazione supportate da. SageMaker HyperPod

Supporto Slurm in SageMaker HyperPod

SageMaker HyperPod fornisce supporto per l'esecuzione di carichi di lavoro di machine learning su cluster resilienti mediante l'integrazione con Slurm, un gestore di carichi di lavoro open source. Il supporto di Slurm SageMaker HyperPod consente una perfetta orchestrazione del cluster tramite la configurazione del cluster Slurm, consentendo di configurare nodi head, login e worker sui SageMaker HyperPod cluster. Questa integrazione facilita anche la pianificazione dei processi basata su Slurm per l'esecuzione di carichi di lavoro ML sul cluster, nonché l'accesso diretto ai nodi del cluster per la pianificazione dei processi. Con il supporto per la configurazione HyperPod del ciclo di vita, puoi personalizzare l'ambiente di elaborazione dei cluster per soddisfare i tuoi requisiti specifici. Inoltre, sfruttando le librerie di formazione distribuite di Amazon SageMaker AI, puoi ottimizzare le prestazioni dei cluster sulle AWS risorse di elaborazione e di rete. Per ulteriori informazioni, consulta Orchestrazione dei SageMaker HyperPod cluster con Slurm.

Supporto Amazon EKS in SageMaker HyperPod

SageMaker HyperPod si integra inoltre con Amazon EKS per consentire la formazione su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata. Ciò consente agli utenti amministratori del cluster di effettuare il provisioning dei HyperPod cluster e collegarli a un piano di controllo EKS, abilitando la gestione dinamica della capacità, l'accesso diretto alle istanze del cluster e le funzionalità di resilienza. Per i data scientist, il supporto di Amazon EKS HyperPod consente di eseguire carichi di lavoro containerizzati per la formazione dei modelli di base, l'inferenza sul cluster EKS e lo sfruttamento della funzionalità di ripristino automatico del lavoro per la formazione Kubeflow. PyTorch L'architettura prevede una mappatura 1 a 1 tra un cluster EKS (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di un VPC, fornendo una soluzione strettamente integrata per l'esecuzione di carichi di lavoro ML su larga scala. Per ulteriori informazioni, consulta Orchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Regioni AWS supportato da SageMaker HyperPod

SageMaker HyperPod è disponibile nelle seguenti versioni Regioni AWS.

us-east-1
us-east-2
us-west-1
us-west-2
eu-central-1
eu-north-1
eu-west-1
eu-west-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-4
ap-northeast-1
sa-east-1

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Fornisci agli utenti l'accesso a immagini personalizzate

Prerequisiti

In questa pagina

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Amazon SageMaker HyperPod

Regioni AWS supportato da SageMaker HyperPod

Argomenti

In questa pagina

Related resources

Questa pagina ti è stata utile?

Related resources

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?