Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Orchestrazione dei SageMaker HyperPod cluster con Amazon EKS
SageMaker HyperPod è un servizio SageMaker gestito dall'intelligenza artificiale che consente l'addestramento su larga scala di modelli di base su cluster di elaborazione resilienti e di lunga durata, che si integra con Amazon per orchestrare le risorse di calcolo. EKS HyperPod Puoi eseguire lavori di formazione ininterrotti per settimane o mesi su larga scala utilizzando EKS cluster Amazon con funzionalità di HyperPod resilienza che verificano la presenza di vari guasti hardware e ripristinano automaticamente i nodi difettosi.
Le funzionalità principali per gli utenti amministratori del cluster includono quanto segue.
-
Eseguire il provisioning di HyperPod cluster resilienti e collegarli a un piano di controllo EKS
-
Abilitazione della gestione dinamica della capacità, ad esempio l'aggiunta di altri nodi, l'aggiornamento del software e l'eliminazione dei cluster
-
Abilitazione dell'accesso alle istanze del cluster direttamente tramite o/
kubectl
SSMSSH -
Offre funzionalità di resilienza, tra cui controlli sanitari di base, controlli sanitari approfonditi, un agente di monitoraggio dello stato di salute e supporto per la ripresa automatica del lavoro PyTorch
-
Integrazione con strumenti di osservabilità come Amazon CloudWatchContainer Insights, Amazon Managed Service for Prometheus e Amazon Managed Grafana
Per gli utenti di data scientist, EKS il supporto abilita quanto segue. HyperPod
-
Esecuzione di carichi di lavoro containerizzati per la formazione dei modelli di base sul cluster HyperPod
-
Esecuzione dell'inferenza sul EKS cluster, sfruttando l'integrazione tra e HyperPod EKS
-
Sfruttamento della funzionalità di ripresa automatica del lavoro per la formazione PyTorch Kubeflow
() PyTorchJob
Nota
Amazon EKS consente l'orchestrazione gestita dall'utente di attività e infrastruttura tramite Amazon SageMaker HyperPod EKS Control Plane. Assicurati che l'accesso degli utenti al cluster tramite l'endpoint Kubernetes API Server segua il principio del privilegio minimo e che l'uscita di rete dal cluster sia protetta. HyperPod
Per ulteriori informazioni sulla protezione dell'accesso ad Amazon EKS API Server, consulta Controllare l'accesso alla rete all'endpoint API del server del cluster.
Per ulteriori informazioni sulla protezione dell'accesso alla rete su HyperPod, consulta. Configurazione SageMaker HyperPod con Amazon VPC
L'architettura di alto livello di Amazon EKS Support HyperPod prevede una mappatura 1 a 1 tra un EKS cluster (piano di controllo) e un HyperPod cluster (nodi di lavoro) all'interno di unVPC, come mostrato nel diagramma seguente.