Installer des packages sur le EKS cluster Amazon à l'aide de Helm

Avant de créer un SageMaker HyperPod cluster et de l'associer à un EKS cluster Amazon, vous devez installer des packages à l'aide de Helm, un gestionnaire de packages pour Kubernetes. Helm est un outil open source permettant de configurer un processus d'installation pour les clusters Kubernetes. Il permet l'automatisation et la rationalisation des installations de dépendances et simplifie les différentes configurations nécessaires pour préparer le EKS cluster Amazon en tant qu'orchestrateur (plan de contrôle) d'un cluster. SageMaker HyperPod

L'équipe SageMaker HyperPod de service fournit un package de diagrammes Helm, qui regroupe les principales dépendances telles que les EFA appareils/plug-ins, Kueue, Kubeflow Training Operator et les configurations d'autorisation associées.

Important

Cette étape d'installation du casque est une étape obligatoire. Si vous ne configurez pas votre EKS cluster Amazon à l'aide du diagramme Helm fourni, le SageMaker HyperPod cluster risque de ne pas fonctionner correctement ou d'échouer complètement le processus de création. Le aws-hyperpod nom de l'espace de noms ne peut pas être modifié.

Installez Helm sur votre machine locale.
Téléchargez les cartes Helm SageMaker HyperPod fournies helm_chart/HyperPodHelmChart dans le SageMaker HyperPod CLIréférentiel.
```
git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart
```
Mettez à jour les dépendances du graphique Helm, prévisualisez les modifications qui seront apportées à votre cluster Kubernetes et installez le graphique Helm.
```
helm dependencies update HyperPodHelmChart
```
```
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
```
```
helm install hyperpod-dependencies HyperPodHelmChart
```

En résumé, l'installation de Helm configure différents composants pour votre EKS cluster Amazon, notamment la planification des tâches et la mise en file d'attente (Kueue), la gestion du stockage, MLflow l'intégration et Kubeflow. En outre, les graphiques installent les composants suivants pour les intégrer aux fonctionnalités de résilience du SageMaker HyperPod cluster, qui sont des composants obligatoires.

Agent de surveillance de l'état — Ceci installe l'agent de surveillance de l'état fourni par. SageMaker HyperPod Cela est nécessaire si vous souhaitez que votre HyperPod cluster soit surveillé. Les agents de surveillance de l'état de santé sont fournis sous forme d'images Docker comme suit. Dans les diagrammes de Helm fournisvalues.yaml, l'image est prédéfinie. Les instances GPU basées sur le support de l'agent et Trainium-accelerator-based les instances (trn1trn1n,,inf2). Il est installé dans l'espace de aws-hyperpod noms.
```
590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
```
Contrôle de santé approfondi : cela permet de configurer aClusterRole, a ServiceAccount (deep-health-check-service-account) dans l'espace de aws-hyperpod noms et a ClusterRoleBinding pour activer la fonctionnalité de contrôle de santé SageMaker HyperPod approfondi. Pour plus d'informations sur le RBAC fichier Kubernetes pour une vérification approfondie de l'état de santé, consultez le fichier de configuration deep-health-check-rbac.yamldans le référentiel. SageMaker HyperPod CLI GitHub
job-auto-restart- Cela permet de configurer aClusterRole, a ServiceAccount (job-auto-restart) dans l'espace de aws-hyperpod noms et aClusterRoleBinding, pour activer la fonctionnalité de redémarrage automatique pour les tâches de PyTorch formation dans. SageMaker HyperPod Pour plus d'informations sur le fichier Kubernetes pourjob-auto-restart, consultez le RBAC fichier de configuration job-auto-restart-rbac.yamldans le référentiel. SageMaker HyperPod CLI GitHub
Opérateur Kubeflow — MPI L'opérateur est un MPIopérateur Kubernetes qui simplifie l'exécution des charges de travail distribuées du Machine Learning (ML) et du calcul haute performance () à l'aide de l'interface de transmission de messages (HPC) sur les clusters Kubernetes. MPI Il installe MPI Operator v0.5. Il est installé dans l'espace de mpi-operator noms.
nvidia-device-plugin— Il s'agit d'un plug-in pour appareil Kubernetes qui vous permet d'exposer automatiquement les conteneurs de votre cluster Amazon à des NVIDIA GPUs fins de consommation. EKS Cela permet à Kubernetes d'allouer et de fournir un accès au conteneur demandé GPUs pour ce conteneur. Obligatoire lors de l'utilisation d'un type d'instance avecGPU.
neuron-device-plugin— Il s'agit d'un plug-in pour appareil Kubernetes qui vous permet d'exposer automatiquement les puces AWS Inferentia à la consommation par les conteneurs de votre cluster Amazon. EKS Il permet à Kubernetes d'accéder aux puces AWS Inferentia sur les nœuds du cluster et de les utiliser. Obligatoire lors de l'utilisation d'un type d'instance Neuron.
aws-efa-k8s-device-plugin— Il s'agit d'un plug-in pour appareil Kubernetes qui permet d'utiliser AWS Elastic Fabric Adapter () EFA sur les clusters Amazon. EKS EFAest un périphérique réseau qui fournit une communication à faible latence et à haut débit entre les instances d'un cluster. Obligatoire lors de l'utilisation d'un type d'instance EFA pris en charge.

Pour plus d'informations sur la procédure d'installation à l'aide des diagrammes Helm fournis, consultez le READMEfichier dans le SageMaker HyperPod CLI référentiel.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Premiers pas

Configuration du contrôle d'accès basé sur les rôles de Kubernetes