Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS

SageMaker HyperPod è un servizio SageMaker gestito dall'intelligenza artificiale che consente l'addestramento su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata, che si integra con Amazon per orchestrare le risorse di calcolo. EKS HyperPod Puoi eseguire lavori di formazione ininterrotti per settimane o mesi su larga scala utilizzando EKS cluster Amazon con funzionalità di HyperPod resilienza che verificano la presenza di vari guasti hardware e ripristinano automaticamente i nodi difettosi.

Le funzionalità principali per gli utenti amministratori del cluster includono quanto segue.

Per gli utenti di data scientist, EKS il supporto abilita quanto segue. HyperPod

  • Esecuzione di carichi di lavoro containerizzati per la formazione dei modelli di base sul cluster HyperPod

  • Esecuzione dell'inferenza sul EKS cluster, sfruttando l'integrazione tra e HyperPod EKS

  • Sfruttamento della funzionalità di ripresa automatica del lavoro per la formazione PyTorch Kubeflow () PyTorchJob

Nota

Amazon EKS consente l'orchestrazione gestita dall'utente di attività e infrastruttura tramite Amazon SageMaker HyperPod EKS Control Plane. Assicurati che l'accesso degli utenti al cluster tramite l'endpoint Kubernetes API Server segua il principio del privilegio minimo e che l'uscita di rete dal cluster sia protetta. HyperPod

Per ulteriori informazioni sulla protezione dell'accesso ad Amazon EKS API Server, consulta Controllare l'accesso alla rete all'endpoint API del server del cluster.

Per ulteriori informazioni sulla protezione dell'accesso alla rete su HyperPod, consulta. Configurazione SageMaker HyperPod con Amazon VPC

L'architettura di alto livello di Amazon EKS Support HyperPod prevede una mappatura 1 a 1 tra un EKS cluster (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di unVPC, come mostrato nel diagramma seguente.

EKS and HyperPod VPC architecture with control plane, cluster nodes, and Servizi AWS.