Installa pacchetti sul EKS cluster Amazon utilizzando Helm - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Installa pacchetti sul EKS cluster Amazon utilizzando Helm

Prima di creare un SageMaker HyperPod cluster e collegarlo a un EKS cluster Amazon, è necessario installare i pacchetti utilizzando Helm, un gestore di pacchetti per Kubernetes. Helm è uno strumento open source per configurare un processo di installazione per i cluster Kubernetes. Consente l'automazione e la semplificazione delle installazioni delle dipendenze e semplifica varie configurazioni necessarie per preparare il EKS cluster Amazon come orchestratore (piano di controllo) per un cluster. SageMaker HyperPod

Il team SageMaker HyperPod di assistenza fornisce un pacchetto Helm chart, che raggruppa dipendenze chiave come EFA dispositivi/plug-in, Kueue, Kubeflow Training Operator e le configurazioni di autorizzazione associate.

Importante

Questa fase di installazione di Helm è obbligatoria. La mancata configurazione del EKS cluster Amazon utilizzando il grafico Helm fornito può comportare il malfunzionamento del SageMaker HyperPod cluster o il completo fallimento del processo di creazione. Il aws-hyperpod nome del namespace non può essere modificato.

  1. Installa Helm sul tuo computer locale.

  2. Scarica i grafici Helm forniti da che SageMaker HyperPod si trovano helm_chart/HyperPodHelmChart nel repository. SageMaker HyperPod CLI

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Aggiorna le dipendenze del grafico Helm, visualizza in anteprima le modifiche che verranno apportate al tuo cluster Kubernetes e installa il grafico Helm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

In sintesi, l'installazione Helm configura vari componenti per il tuo EKS cluster Amazon, tra cui la pianificazione e la coda dei lavori (Kueue), la gestione dello storage, l'integrazione e Kubeflow. MLflow Inoltre, i grafici installano i seguenti componenti per l'integrazione con le funzionalità di resilienza del cluster, che sono componenti obbligatori. SageMaker HyperPod

  • Health monitoring agent: installa l'agente di monitoraggio sanitario fornito da. SageMaker HyperPod Questo è necessario se si desidera monitorare il HyperPod cluster. Gli agenti di monitoraggio dello stato sono forniti come immagini Docker come segue. Nei values.yaml forniti nei grafici Helm, l'immagine è preimpostata. L'agente supporta le istanze GPU basate sul supporto e le istanze T (,,). rainium-accelerator-based trn1 trn1n inf2 Viene installato nel namespace. aws-hyperpod

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Controllo approfondito dello stato di salute: imposta l'account del servizio SageMaker HyperPod Deep Health Check e ClusterRole il ClusterRoleBinding aws-hyperpod namespace.

  • Operatore Kubeflow: MPI l'operatore è un MPIoperatore Kubernetes che semplifica l'esecuzione di carichi di lavoro distribuiti di Machine Learning (ML) e High-Performance Computing () utilizzando la Message Passing Interface HPC () sui cluster Kubernetes. MPI Installa Operator v0.5. MPI Viene installato nel namespace. mpi-operator

  • nvidia-device-plugin— Si tratta di un plug-in per dispositivi Kubernetes che ti consente di esporlo automaticamente NVIDIA GPUs per il consumo da parte dei container del tuo cluster Amazon. EKS Consente a Kubernetes di allocare e fornire l'accesso a quanto richiesto per quel contenitore. GPUs Obbligatorio quando si utilizza un tipo di istanza con. GPU

  • neuron-device-plugin— Si tratta di un plug-in per dispositivi Kubernetes che consente di esporre automaticamente AWS Chip Inferentia per il consumo da parte dei contenitori del tuo cluster AmazonEKS. Consente a Kubernetes di accedere e utilizzare AWS Chip Inferentia sui nodi del cluster. Richiesto quando si utilizza un tipo di istanza Neuron.

  • aws-efa-k8s-device-plugin— Questo è un plug-in per dispositivi Kubernetes che consente l'uso di AWS Elastic Fabric Adapter (EFA) su EKS cluster Amazon. EFAè un dispositivo di rete che fornisce comunicazioni a bassa latenza e ad alto throughput tra le istanze di un cluster. Richiesto quando si utilizza un tipo di istanza supportato. EFA

Per ulteriori informazioni sulla procedura di installazione utilizzando i grafici Helm forniti, consultate il READMEfile nel SageMaker HyperPod CLI repository.