Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS

SageMaker HyperPod è un servizio SageMaker gestito che consente l'addestramento su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata, che si integra con Amazon EKS per orchestrare le risorse di calcolo. HyperPod Puoi eseguire lavori di formazione ininterrotti per settimane o mesi su larga scala utilizzando EKS cluster Amazon con funzionalità di HyperPod resilienza che verificano la presenza di vari guasti hardware e ripristinano automaticamente i nodi difettosi.

Le funzionalità principali per gli utenti amministratori del cluster includono quanto segue.

Per gli utenti di data scientist, EKS il supporto abilita quanto segue. HyperPod

  • Esecuzione di carichi di lavoro containerizzati per la formazione dei modelli di base sul cluster HyperPod

  • Esecuzione dell'inferenza sul EKS cluster, sfruttando l'integrazione tra e HyperPod EKS

  • Sfruttamento della funzionalità di ripresa automatica del lavoro per la formazione PyTorch Kubeflow () PyTorchJob

L'architettura di alto livello di Amazon EKS Support HyperPod prevede una mappatura 1 a 1 tra un EKS cluster (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di unVPC, come mostrato nel diagramma seguente.