Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS
SageMaker HyperPod è un servizio SageMaker gestito che consente l'addestramento su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata, che si integra con Amazon EKS per orchestrare le risorse di calcolo. HyperPod Puoi eseguire lavori di formazione ininterrotti per settimane o mesi su larga scala utilizzando EKS cluster Amazon con funzionalità di HyperPod resilienza che verificano la presenza di vari guasti hardware e ripristinano automaticamente i nodi difettosi.
Le funzionalità principali per gli utenti amministratori del cluster includono quanto segue.
-
Eseguire il provisioning di HyperPod cluster resilienti e collegarli a un piano di controllo EKS
-
Abilitazione della gestione dinamica della capacità, ad esempio l'aggiunta di altri nodi, l'aggiornamento del software e l'eliminazione dei cluster
-
Abilitazione dell'accesso alle istanze del cluster direttamente tramite o/
kubectl
SSMSSH -
Offre funzionalità di resilienza, tra cui controlli sanitari di base, controlli sanitari approfonditi, un agente di monitoraggio dello stato di salute e supporto per la ripresa automatica del lavoro PyTorch
-
Integrazione con strumenti di osservabilità come Amazon CloudWatchContainer Insights, Amazon Managed Service for Prometheus e Amazon Managed Grafana
Per gli utenti di data scientist, EKS il supporto abilita quanto segue. HyperPod
-
Esecuzione di carichi di lavoro containerizzati per la formazione dei modelli di base sul cluster HyperPod
-
Esecuzione dell'inferenza sul EKS cluster, sfruttando l'integrazione tra e HyperPod EKS
-
Sfruttamento della funzionalità di ripresa automatica del lavoro per la formazione PyTorch Kubeflow
() PyTorchJob
L'architettura di alto livello di Amazon EKS Support HyperPod prevede una mappatura 1 a 1 tra un EKS cluster (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di unVPC, come mostrato nel diagramma seguente.