Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod
Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l'utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'Amazon EKS.
Prérequis
Note
Avant de créer un HyperPod cluster, vous avez besoin d'un cluster Amazon EKS en cours d'exécution configuré avec VPC et installé à l'aide de Helm.
-
Si vous utilisez la console SageMaker AI, vous pouvez créer un cluster Amazon EKS sur la page de console du HyperPod cluster. Pour de plus amples informations, veuillez consulter Créer un cluster SageMaker HyperPod .
-
Si vous utilisez une AWS CLI, vous devez créer un cluster Amazon EKS avant de créer un HyperPod cluster auquel vous pouvez vous associer. Pour plus d'informations, consultez la section Création d'un cluster Amazon EKS dans le guide de l'utilisateur Amazon EKS.
Lors du provisionnement de votre cluster Amazon EKS, tenez compte des points suivants :
-
Support des versions de Kubernetes
-
SageMaker HyperPod prend en charge les versions 1.28, 1.29, 1.30 et 1.31 de Kubernetes.
-
-
Mode d'authentification du cluster Amazon EKS
-
Le mode d'authentification d'un cluster Amazon EKS pris en charge par SageMaker HyperPod are
API
andAPI_AND_CONFIG_MAP
.
-
-
Réseaux
-
SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.
Note
AWS Le plugin VPC CNI pour Kubernetes
est le seul CNI pris en charge par. SageMaker HyperPod -
Le type de sous-réseau de votre VPC doit être privé HyperPod pour les clusters.
-
-
Rôles IAM
-
Assurez-vous que les rôles IAM nécessaires pour HyperPod sont configurés conformément aux instructions de la AWS Identity and Access Management pour SageMaker HyperPod section.
-
-
Extensions du cluster Amazon EKS
-
Vous pouvez continuer à utiliser les différents modules complémentaires fournis par Amazon EKS, tels que Kube-proxy, CoreDNS, le plug-in Amazon VPC Container Network Interface (CNI), l'identité du pod Amazon EKS, l' GuardDutyagent, le pilote Amazon Container Storage Interface (CSI), le pilote Mountpoint pour FSx Amazon S3 CSI, le Distro pour et l'agent Observability. AWS OpenTelemetry CloudWatch
-
Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS
-
Vous ne pouvez pas monter de volumes EBS supplémentaires directement sur des pods exécutés sur des nœuds de HyperPod cluster. Au lieu de cela, vous devez l'utiliser InstanceStorageConfigspour provisionner et monter des volumes EBS supplémentaires sur les HyperPod nœuds. Il est important de noter que vous ne pouvez associer des volumes EBS supplémentaires à de nouveaux groupes d'instances que lors de la création ou de la mise à jour d'un HyperPod cluster. Une fois que vous avez configuré les groupes d'instances avec ces volumes EBS supplémentaires, dans le fichier de configuration de votre Amazon EKS Pod, vous devez définir le chemin local
/opt/sagemaker
pour monter correctement les volumes sur vos Amazon EKS Pods. -
Vous pouvez déployer le contrôleur Amazon EBS CSI (Container Storage Interface) sur HyperPod des nœuds. Toutefois, le nœud Amazon EBS CSI DaemonSet, qui facilite le montage et le démontage des volumes EBS, ne peut être exécuté que sur des instances autres que les instances. HyperPod Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker AI ML préfixés par.
ml.
Par exemple, pour les instances P5, utilisez à laml.p5.48xlarge
place dep5.48xlarge
.
Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS
-
Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d'instance, reportez-vous au tableau suivant.
Type d’instance Nombre maximum de capsules ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p 5,48 x large 49 ml.trn 1,32 x large 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2 x large 14 ml.g6.4 x large 29 ml.g 6,8 x large 29 ml.g 6,12 x large 29 ml.g 6,16 x large 49 ml.g 6,24 x large 49 ml.g 6,48 x large 49 ml.gr 6,4 x large 29 ml.gr 6,8 x large 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16 x large 49 ml.g6e.24xlarge 49 ml.g6e.48 x large 49 ml.p5e.48 x large 49 -
Par défaut, seuls les pods
hostNetwork = true
ont accès à l'Amazon EC2 Instance Metadata Service (IMDS). Utilisez l'identité Amazon EKS Pod ou les rôles IAM pour les comptes de service (IRSA) pour gérer l'accès aux AWS informations d'identification des Pods. -
SageMaker HyperPod les clusters ne prennent actuellement en charge que l'adressage IPv4 IP. IPv6 L'adressage IP n'est pas pris en charge pour le moment.
Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster
-
Le remplacement automatique des nœuds n'est pas pris en charge pour les instances de processeur.
-
L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L'agent peut être installé à l'aide de Helm. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l'aide de Helm.
-
L'agent de vérification HyperPod approfondie de l'état et de surveillance de l'état prend en charge les instances GPU et Trn.
-
SageMaker L'IA inflige la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
Note
Vous ne pouvez pas ajouter de taches personnalisées aux nœuds des groupes d'instances lorsque cette option
DeepHealthChecks
est activée.
Une fois que votre cluster Amazon EKS est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installation de packages sur le cluster Amazon EKS à l'aide de Helm avant de créer votre HyperPod cluster.