Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Installer des packages sur le EKS cluster Amazon à l'aide de Helm
Avant de créer un SageMaker HyperPod cluster et de l'associer à un EKS cluster Amazon, vous devez installer des packages à l'aide de Helm
L'équipe SageMaker HyperPod de service fournit un package de diagrammes Helm, qui regroupe les principales dépendances telles que les EFA appareils/plug-ins, Kueue, Kubeflow Training Operator
Important
Cette étape d'installation du casque est une étape obligatoire. Si vous ne configurez pas votre EKS cluster Amazon à l'aide du diagramme Helm fourni, le SageMaker HyperPod cluster risque de ne pas fonctionner correctement ou d'échouer complètement le processus de création. Le aws-hyperpod
nom de l'espace de noms ne peut pas être modifié.
-
Installez Helm
sur votre machine locale. -
Téléchargez les cartes Helm SageMaker HyperPod fournies
helm_chart/HyperPodHelmChart
dans le SageMaker HyperPod CLIréférentiel. git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Mettez à jour les dépendances du graphique Helm, prévisualisez les modifications qui seront apportées à votre cluster Kubernetes et installez le graphique Helm.
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
En résumé, l'installation de Helm configure différents composants pour votre EKS cluster Amazon, notamment la planification des tâches et la mise en file d'attente (Kueue), la gestion du stockage, MLflow l'intégration et Kubeflow. En outre, les graphiques installent les composants suivants pour les intégrer aux fonctionnalités de résilience du SageMaker HyperPod cluster, qui sont des composants obligatoires.
-
Agent de surveillance de l'état — Ceci installe l'agent de surveillance de l'état fourni par. SageMaker HyperPod Cela est nécessaire si vous souhaitez que votre HyperPod cluster soit surveillé. Les agents de surveillance de l'état de santé sont fournis sous forme d'images Docker comme suit. Dans le fichier values.yaml fourni dans les graphiques Helm, l'image est prédéfinie. Les instances GPU basées sur le support de l'agent et rainium-accelerator-based les instances T (
trn1
trn1n
,,inf2
). Il est installé dans l'espace deaws-hyperpod
noms.590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
Contrôle de santé approfondi : cela permet de configurer le compte du service de contrôle de santé SageMaker HyperPod approfondi et
ClusterRoleBinding
l'espace deaws-hyperpod
noms.ClusterRole
-
Opérateur Kubeflow — MPI L'opérateur est un MPIopérateur
Kubernetes qui simplifie l'exécution des charges de travail distribuées de Machine Learning (ML) et de calcul haute performance () à l'aide de l'interface de transmission de messages (HPC) sur les clusters Kubernetes. MPI Il installe MPI Operator v0.5. Il est installé dans l'espace de mpi-operator
noms. -
nvidia-device-plugin
— Il s'agit d'un plugin pour appareil Kubernetes qui vous permet d'exposer automatiquement les conteneurs de votre cluster Amazon à des NVIDIA GPUs fins de consommation. EKS Cela permet à Kubernetes d'allouer et de fournir un accès au conteneur demandé GPUs pour ce conteneur. Obligatoire lors de l'utilisation d'un type d'instance avecGPU. -
neuron-device-plugin
— Il s'agit d'un plugin pour appareil Kubernetes qui vous permet d'exposer automatiquement AWS Chips Inferentia destinés à être consommés par des conteneurs de votre EKS cluster Amazon. Il permet à Kubernetes d'accéder et d'utiliser AWS Des puces d'inférence sur les nœuds du cluster. Obligatoire lors de l'utilisation d'un type d'instance Neuron. -
aws-efa-k8s-device-plugin
— Il s'agit d'un plugin pour appareil Kubernetes qui permet d'utiliser AWS Elastic Fabric Adapter (EFA) sur les EKS clusters Amazon. EFAest un périphérique réseau qui fournit une communication à faible latence et à haut débit entre les instances d'un cluster. Obligatoire lors de l'utilisation d'un type d'instance EFA pris en charge.
Pour plus d'informations sur la procédure d'installation à l'aide des diagrammes Helm fournis, consultez le READMEfichier dans le SageMaker HyperPod CLI référentiel