Commencer à utiliser le EKS support Amazon dans SageMaker HyperPod - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Commencer à utiliser le EKS support Amazon dans SageMaker HyperPod

Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l'utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'AmazonEKS.

Prérequis

Note

Avant de créer un HyperPod cluster, vous avez besoin d'un EKS cluster Amazon actif configuré VPC et installé avec Helm.

  • Si vous utilisez la SageMaker console, vous pouvez créer un EKS cluster Amazon sur la page de console du HyperPod cluster. Pour de plus amples informations, veuillez consulter Création d'un SageMaker HyperPod cluster.

  • Si vous utilisez AWS CLI, vous devez créer un EKS cluster Amazon avant de créer un HyperPod cluster auquel vous associer. Pour plus d'informations, consultez la section Créer un EKS cluster Amazon dans le guide de EKS l'utilisateur Amazon.

Lors du provisionnement de votre EKS cluster Amazon, tenez compte des points suivants :

  1. Support des versions de Kubernetes

    • SageMaker HyperPod prend en charge les versions 1.28, 1.29 et 1.30 de Kubernetes.

  2. Mode d'authentification EKS du cluster Amazon

    • Le mode d'authentification d'un EKS cluster Amazon pris en charge par SageMaker HyperPod are API andAPI_AND_CONFIG_MAP.

  3. Réseaux

    • SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.

      Note

      AWS VPCCNILe plugin pour Kubernetes est le seul CNI supporté par. SageMaker HyperPod

    • Le type du sous-réseau de votre site VPC doit être privé pour les HyperPod clusters.

  4. IAMrôles

  5. Extensions EKS du cluster Amazon

    • Vous pouvez continuer à utiliser les différents modules complémentaires fournis par Amazon, EKS tels que Kube-proxy, Core DNS, le plugin Amazon VPC Container Network Interface (CNI), l'identité du EKS pod Amazon, l' GuardDutyagent, le pilote Amazon FSx Container Storage Interface (CSI), le pilote Mountpoint pour Amazon S3, le CSI AWS Distribution pour OpenTelemetry, et l'agent CloudWatch Observability.

Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS

  • Vous ne pouvez pas monter de EBS volumes supplémentaires directement sur des pods exécutés sur des nœuds de HyperPod cluster. Vous devez plutôt l'utiliser pour InstanceStorageConfigsprovisionner et monter des EBS volumes supplémentaires sur les HyperPod nœuds. Il est important de noter que vous ne pouvez associer des EBS volumes supplémentaires à de nouveaux groupes d'instances que lors de la création ou de la mise à jour d'un HyperPod cluster. Une fois que vous avez configuré les groupes d'instances avec ces EBS volumes supplémentaires, dans le fichier de configuration de votre Amazon EKS Pod, vous devez définir le chemin local /opt/sagemaker pour monter correctement les volumes sur vos Amazon EKS Pods.

  • Vous pouvez déployer le contrôleur Amazon EBS CSI (Container Storage Interface) sur HyperPod les nœuds. Cependant, le EBS CSI nœud Amazon DaemonSet, qui facilite le montage et le démontage des EBS volumes, ne peut fonctionner que sur des instances non HyperPod instances. Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker ML préfixés par. ml. Par exemple, pour les instances P5, utilisez ml.p5.48xlarge au lieu dep5.48xlarge.

Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS

  • Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d'instance, reportez-vous au tableau suivant.

    Type d’instance Nombre maximum de capsules
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p 5,48 x large 49
    ml.trn 1,32 x large 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
  • Par défaut, seuls les pods hostNetwork = true ont accès au service de métadonnées d'EC2instance Amazon (IMDS). Utilisez l'identité Amazon EKS Pod ou les IAMrôles des comptes de service (IRSA) pour gérer l'accès au AWS informations d'identification pour Pods.

  • SageMaker HyperPod les clusters ne prennent actuellement en charge que l'adressage IPv4 IP. IPv6L'adressage IP n'est pas pris en charge pour le moment.

Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster

  • Le remplacement automatique des nœuds n'est pas pris en charge pour les CPU instances.

  • L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L'agent peut être installé à l'aide de Helm. Pour de plus amples informations, veuillez consulter Installer des packages sur le EKS cluster Amazon à l'aide de Helm.

  • L'agent de contrôle de santé HyperPod approfondi et de surveillance de l'état prend en charge GPU les instances Trn.

  • SageMaker applique la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Note

    Vous ne pouvez pas ajouter de taches personnalisées aux nœuds des groupes d'instances lorsque cette option DeepHealthChecks est activée.

Une fois que votre EKS cluster Amazon est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installer des packages sur le EKS cluster Amazon à l'aide de Helm avant de créer votre HyperPod cluster.