Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Commencer à utiliser le EKS support Amazon dans SageMaker HyperPod
Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l'utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'AmazonEKS.
Prérequis
Note
Avant de créer un HyperPod cluster, vous avez besoin d'un EKS cluster Amazon actif configuré VPC et installé avec Helm.
-
Si vous utilisez la SageMaker console, vous pouvez créer un EKS cluster Amazon sur la page de console du HyperPod cluster. Pour de plus amples informations, veuillez consulter Création d'un SageMaker HyperPod cluster.
-
Si vous utilisez AWS CLI, vous devez créer un EKS cluster Amazon avant de créer un HyperPod cluster auquel vous associer. Pour plus d'informations, consultez la section Créer un EKS cluster Amazon dans le guide de EKS l'utilisateur Amazon.
Lors du provisionnement de votre EKS cluster Amazon, tenez compte des points suivants :
-
Support des versions de Kubernetes
-
SageMaker HyperPod prend en charge les versions 1.28, 1.29 et 1.30 de Kubernetes.
-
-
Mode d'authentification EKS du cluster Amazon
-
Le mode d'authentification d'un EKS cluster Amazon pris en charge par SageMaker HyperPod are
API
andAPI_AND_CONFIG_MAP
.
-
-
Réseaux
-
SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.
Note
AWS VPCCNILe plugin pour Kubernetes
est le seul CNI supporté par. SageMaker HyperPod -
Le type du sous-réseau de votre site VPC doit être privé pour les HyperPod clusters.
-
-
IAMrôles
-
Assurez-vous que les IAM rôles nécessaires HyperPod sont définis comme indiqué dans la AWS Identity and Access Management pour SageMaker HyperPod section.
-
-
Extensions EKS du cluster Amazon
-
Vous pouvez continuer à utiliser les différents modules complémentaires fournis par Amazon, EKS tels que Kube-proxy, Core DNS, le plugin Amazon VPC Container Network Interface (CNI), l'identité du EKS pod Amazon, l' GuardDutyagent, le pilote Amazon FSx Container Storage Interface (CSI), le pilote Mountpoint pour Amazon S3, le CSI AWS Distribution pour OpenTelemetry, et l'agent CloudWatch Observability.
-
Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS
-
Vous ne pouvez pas monter de EBS volumes supplémentaires directement sur des pods exécutés sur des nœuds de HyperPod cluster. Vous devez plutôt l'utiliser pour InstanceStorageConfigsprovisionner et monter des EBS volumes supplémentaires sur les HyperPod nœuds. Il est important de noter que vous ne pouvez associer des EBS volumes supplémentaires à de nouveaux groupes d'instances que lors de la création ou de la mise à jour d'un HyperPod cluster. Une fois que vous avez configuré les groupes d'instances avec ces EBS volumes supplémentaires, dans le fichier de configuration de votre Amazon EKS Pod, vous devez définir le chemin local
/opt/sagemaker
pour monter correctement les volumes sur vos Amazon EKS Pods. -
Vous pouvez déployer le contrôleur Amazon EBS CSI (Container Storage Interface) sur HyperPod les nœuds. Cependant, le EBS CSI nœud Amazon DaemonSet, qui facilite le montage et le démontage des EBS volumes, ne peut fonctionner que sur des instances non HyperPod instances. Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker ML préfixés par.
ml.
Par exemple, pour les instances P5, utilisezml.p5.48xlarge
au lieu dep5.48xlarge
.
Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS
-
Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d'instance, reportez-vous au tableau suivant.
Type d’instance Nombre maximum de capsules ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p 5,48 x large 49 ml.trn 1,32 x large 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 -
Par défaut, seuls les pods
hostNetwork = true
ont accès au service de métadonnées d'EC2instance Amazon (IMDS). Utilisez l'identité Amazon EKS Pod ou les IAMrôles des comptes de service (IRSA) pour gérer l'accès au AWS informations d'identification pour Pods. -
SageMaker HyperPod les clusters ne prennent actuellement en charge que l'adressage IPv4 IP. IPv6L'adressage IP n'est pas pris en charge pour le moment.
Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster
Le remplacement automatique des nœuds n'est pas pris en charge pour les CPU instances.
L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L'agent peut être installé à l'aide de Helm. Pour de plus amples informations, veuillez consulter Installer des packages sur le EKS cluster Amazon à l'aide de Helm.
-
L'agent de contrôle de santé HyperPod approfondi et de surveillance de l'état prend en charge GPU les instances Trn.
-
SageMaker applique la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
Note
Vous ne pouvez pas ajouter de taches personnalisées aux nœuds des groupes d'instances lorsque cette option
DeepHealthChecks
est activée.
Une fois que votre EKS cluster Amazon est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installer des packages sur le EKS cluster Amazon à l'aide de Helm avant de créer votre HyperPod cluster.