Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Commencer à utiliser le support Amazon EKS dans SageMaker HyperPod

Outre les informations générales SageMaker HyperPod, consultez les exigences et considérations suivantes Conditions préalables pour l'utilisation du SageMaker HyperPod. pour orchestrer des SageMaker HyperPod clusters à l'aide d'Amazon EKS.

Prérequis

Note

Avant de créer un HyperPod cluster, vous avez besoin d'un cluster Amazon EKS en cours d'exécution configuré avec VPC et installé à l'aide de Helm.

  • Si vous utilisez la console SageMaker AI, vous pouvez créer un cluster Amazon EKS sur la page de console du HyperPod cluster. Pour de plus amples informations, veuillez consulter Créer un cluster SageMaker HyperPod .

  • Si vous utilisez une AWS CLI, vous devez créer un cluster Amazon EKS avant de créer un HyperPod cluster auquel vous pouvez vous associer. Pour plus d'informations, consultez la section Création d'un cluster Amazon EKS dans le guide de l'utilisateur Amazon EKS.

Lors du provisionnement de votre cluster Amazon EKS, tenez compte des points suivants :

  1. Support des versions de Kubernetes

    • SageMaker HyperPod prend en charge les versions 1.28, 1.29, 1.30 et 1.31 de Kubernetes.

  2. Mode d'authentification du cluster Amazon EKS

    • Le mode d'authentification d'un cluster Amazon EKS pris en charge par SageMaker HyperPod are API andAPI_AND_CONFIG_MAP.

  3. Réseaux

    • SageMaker HyperPod nécessite le plug-in Amazon VPC Container Network Interface (CNI) version 1.18.3 ou ultérieure.

      Note

      AWS Le plugin VPC CNI pour Kubernetes est le seul CNI pris en charge par. SageMaker HyperPod

    • Le type de sous-réseau de votre VPC doit être privé HyperPod pour les clusters.

  4. Rôles IAM

  5. Extensions du cluster Amazon EKS

Considérations relatives à la configuration de SageMaker HyperPod clusters avec Amazon EKS

  • Vous ne pouvez pas monter de volumes EBS supplémentaires directement sur des pods exécutés sur des nœuds de HyperPod cluster. Au lieu de cela, vous devez l'utiliser InstanceStorageConfigspour provisionner et monter des volumes EBS supplémentaires sur les HyperPod nœuds. Il est important de noter que vous ne pouvez associer des volumes EBS supplémentaires à de nouveaux groupes d'instances que lors de la création ou de la mise à jour d'un HyperPod cluster. Une fois que vous avez configuré les groupes d'instances avec ces volumes EBS supplémentaires, dans le fichier de configuration de votre Amazon EKS Pod, vous devez définir le chemin local /opt/sagemaker pour monter correctement les volumes sur vos Amazon EKS Pods.

  • Vous pouvez déployer le contrôleur Amazon EBS CSI (Container Storage Interface) sur HyperPod des nœuds. Toutefois, le nœud Amazon EBS CSI DaemonSet, qui facilite le montage et le démontage des volumes EBS, ne peut être exécuté que sur des instances autres que les instances. HyperPod Si vous utilisez des étiquettes de type d'instance pour définir des contraintes de planification, veillez à utiliser les types d'instance SageMaker AI ML préfixés par. ml. Par exemple, pour les instances P5, utilisez à la ml.p5.48xlarge place dep5.48xlarge.

Considérations relatives à la configuration du réseau pour les SageMaker HyperPod clusters avec Amazon EKS

  • Chaque instance de HyperPod cluster prend en charge une interface réseau élastique (ENI). Pour connaître le nombre maximal de pods par type d'instance, reportez-vous au tableau suivant.

    Type d’instance Nombre maximum de capsules
    ml.p4d.24xlarge 49
    ml.p4de.24xlarge 49
    ml.p 5,48 x large 49
    ml.trn 1,32 x large 49
    ml.trn1n.32xlarge 49
    ml.g5.xlarge 14
    ml.g5.2xlarge 14
    ml.g5.4xlarge 29
    ml.g5.8xlarge 29
    ml.g5.12xlarge 49
    ml.g5.16xlarge 29
    ml.g5.24xlarge 49
    ml.g5.48xlarge 49
    ml.c5.large 9
    ml.c5.xlarge 14
    ml.c5.2xlarge 14
    ml.c5.4xlarge 29
    ml.c5.9xlarge 29
    ml.c5.12xlarge 29
    ml.c5.18xlarge 49
    ml.c5.24xlarge 49
    ml.c5n.large 9
    ml.c5n.2xlarge 14
    ml.c5n.4xlarge 29
    ml.c5n.9xlarge 29
    ml.c5n.18xlarge 49
    ml.m5.large 9
    ml.m5.xlarge 14
    ml.m5.2xlarge 14
    ml.m5.4xlarge 29
    ml.m5.8xlarge 29
    ml.m5.12xlarge 29
    ml.m5.16xlarge 49
    ml.m5.24xlarge 49
    ml.t3.medium 5
    ml.t3.large 11
    ml.t3.xlarge 14
    ml.t3.2xlarge 14
    ml.g6.xlarge 14
    ml.g6.2 x large 14
    ml.g6.4 x large 29
    ml.g 6,8 x large 29
    ml.g 6,12 x large 29
    ml.g 6,16 x large 49
    ml.g 6,24 x large 49
    ml.g 6,48 x large 49
    ml.gr 6,4 x large 29
    ml.gr 6,8 x large 29
    ml.g6e.xlarge 14
    ml.g6e.2xlarge 14
    ml.g6e.4xlarge 29
    ml.g6e.8xlarge 29
    ml.g6e.12xlarge 29
    ml.g6e.16 x large 49
    ml.g6e.24xlarge 49
    ml.g6e.48 x large 49
    ml.p5e.48 x large 49
  • Par défaut, seuls les pods hostNetwork = true ont accès à l'Amazon EC2 Instance Metadata Service (IMDS). Utilisez l'identité Amazon EKS Pod ou les rôles IAM pour les comptes de service (IRSA) pour gérer l'accès aux AWS informations d'identification des Pods.

  • SageMaker HyperPod les clusters ne prennent actuellement en charge que l'adressage IPv4 IP. IPv6 L'adressage IP n'est pas pris en charge pour le moment.

Considérations relatives à l'utilisation des HyperPod fonctionnalités de résilience du cluster

  • Le remplacement automatique des nœuds n'est pas pris en charge pour les instances de processeur.

  • L'agent HyperPod de surveillance de l'état de santé doit être installé pour que la restauration automatique des nœuds fonctionne. L'agent peut être installé à l'aide de Helm. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l'aide de Helm.

  • L'agent de vérification HyperPod approfondie de l'état et de surveillance de l'état prend en charge les instances GPU et Trn.

  • SageMaker L'IA inflige la coloration suivante aux nœuds lorsqu'ils sont soumis à des contrôles de santé approfondis :

    effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
    Note

    Vous ne pouvez pas ajouter de taches personnalisées aux nœuds des groupes d'instances lorsque cette option DeepHealthChecks est activée.

Une fois que votre cluster Amazon EKS est en cours d'exécution, configurez-le à l'aide du gestionnaire de packages Helm comme indiqué Installation de packages sur le cluster Amazon EKS à l'aide de Helm avant de créer votre HyperPod cluster.