Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Installa pacchetti sul EKS cluster Amazon utilizzando Helm
Prima di creare un SageMaker HyperPod cluster e collegarlo a un EKS cluster Amazon, è necessario installare i pacchetti utilizzando Helm
Importante
Questa fase di installazione di Helm è obbligatoria. La mancata configurazione del EKS cluster Amazon utilizzando il grafico Helm fornito può comportare il malfunzionamento del SageMaker HyperPod cluster o il completo fallimento del processo di creazione. Il aws-hyperpod
nome del namespace non può essere modificato.
-
Installa Helm
sul tuo computer locale. -
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Aggiorna le dipendenze del grafico Helm, visualizza in anteprima le modifiche che verranno apportate al tuo cluster Kubernetes e installa il grafico Helm.
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
In sintesi, l'installazione Helm configura vari componenti per il tuo EKS cluster Amazon, tra cui la pianificazione e la coda dei lavori (Kueue), la gestione dello storage, l'integrazione e Kubeflow. MLflow Inoltre, i grafici installano i seguenti componenti per l'integrazione con le funzionalità di resilienza del cluster, che sono componenti obbligatori. SageMaker HyperPod
-
Health monitoring agent: installa l'agente di monitoraggio sanitario fornito da. SageMaker HyperPod Questo è necessario se si desidera monitorare il HyperPod cluster. Gli agenti di monitoraggio dello stato sono forniti come immagini Docker come segue. Nei values.yaml forniti nei grafici Helm, l'immagine è preimpostata. L'agente supporta le istanze GPU basate sul supporto e le istanze T (,,). rainium-accelerator-based
trn1
trn1n
inf2
Viene installato nel namespace.aws-hyperpod
590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
Controllo approfondito dello stato di salute: imposta l'account del servizio SageMaker HyperPod Deep Health Check e
ClusterRole
ilClusterRoleBinding
aws-hyperpod
namespace. -
Operatore Kubeflow: MPI l'operatore è un MPIoperatore
Kubernetes che semplifica l'esecuzione di carichi di lavoro distribuiti di Machine Learning (ML) e High-Performance Computing () utilizzando la Message Passing Interface HPC () sui cluster Kubernetes. MPI Installa Operator v0.5. MPI Viene installato nel namespace. mpi-operator
-
nvidia-device-plugin
— Si tratta di un plug-in per dispositivi Kubernetes che ti consente di esporlo automaticamente NVIDIA GPUs per il consumo da parte dei container del tuo cluster Amazon. EKS Consente a Kubernetes di allocare e fornire l'accesso a quanto richiesto per quel contenitore. GPUs Obbligatorio quando si utilizza un tipo di istanza con. GPU -
neuron-device-plugin
— Si tratta di un plug-in per dispositivi Kubernetes che consente di esporre automaticamente AWS Chip Inferentia per il consumo da parte dei contenitori del tuo cluster AmazonEKS. Consente a Kubernetes di accedere e utilizzare AWS Chip Inferentia sui nodi del cluster. Richiesto quando si utilizza un tipo di istanza Neuron. -
aws-efa-k8s-device-plugin
— Questo è un plug-in per dispositivi Kubernetes che consente l'uso di AWS Elastic Fabric Adapter (EFA) su EKS cluster Amazon. EFAè un dispositivo di rete che fornisce comunicazioni a bassa latenza e ad alto throughput tra le istanze di un cluster. Richiesto quando si utilizza un tipo di istanza supportato. EFA
Per ulteriori informazioni sulla procedura di installazione utilizzando i grafici Helm forniti, consultate il READMEfile nel SageMaker HyperPod CLI repository