Configuration de la gouvernance des tâches - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration de la gouvernance des tâches

Cette section contient des informations sur la configuration du module complémentaire Amazon SageMaker HyperPod Task Governance EKS. Cela inclut l'octroi d'autorisations qui vous permettent de définir la priorité des tâches, l'allocation de calcul pour les équipes, la manière dont le calcul inactif est partagé et la préemption des tâches pour les équipes.

Si vous rencontrez des problèmes de configuration, consultez Dépannage les solutions de dépannage connues.

Paramètres Kueue

HyperPod Le module complémentaire EKS de gouvernance des tâches installe Kueue pour vos clusters HyperPod EKS. Kueue est un système natif de Kubernetes qui gère les quotas et la façon dont les jobs les consomment.

Version complémentaire de gouvernance des HyperPod tâches EKS Version de Kueue installée dans le cadre du module complémentaire kube-rbac-proxyCette version est installée dans le cadre du module complémentaire

v1.0.0

v0.8.1

v0.18.1

HyperPod la gouvernance des tâches exploite Kueue pour la mise en file d'attente des tâches, la planification et la gestion des quotas natifs de Kubernetes, et est installée avec le module complémentaire EKS de gouvernance des tâches. HyperPod Une fois installé, il HyperPod crée et modifie des ressources Kubernetes SageMaker gérées par l'IA telles queKueueManagerConfig,,,, etClusterQueues. LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Bien que les administrateurs Kubernetes aient la possibilité de modifier l'état de ces ressources, il est possible que toute modification apportée à une ressource SageMaker gérée par l'IA soit mise à jour et remplacée par le service.

Les informations suivantes décrivent les paramètres de configuration utilisés par le module complémentaire de gouvernance des HyperPod tâches pour configurer Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Pour plus d'informations sur chaque entrée de configuration, consultez Configuration dans la documentation de Kueue.

HyperPodConditions préalables à la gouvernance des tâches

  • Si ce n'est pas déjà fait, consultez l'Utilisateurs IAM pour l'administrateur du clusterexemple de politique d'autorisation minimale pour les administrateurs de HyperPod clusters. Cela inclut les autorisations pour exécuter le SageMaker HyperPod noyau APIs et gérer les SageMaker HyperPod clusters au sein de votre Compte AWS entreprise, en effectuant les tâches dansSageMaker HyperPod opération.

  • Vous aurez besoin d'une version de Kubernetes supérieure ou égale à 1.30. Pour obtenir des instructions, voir Mettre à jour les clusters existants vers la nouvelle version de Kubernetes.

  • Si Kueue est déjà installé dans leurs clusters, désinstallez Kueue avant d'installer le module complémentaire EKS.

  • Un HyperPod nœud doit déjà exister dans le cluster EKS avant d'installer le module complémentaire de gouvernance des HyperPod tâches.

HyperPod configuration de la gouvernance des tâches

Vous trouverez ci-dessous des informations sur la manière de configurer la gouvernance des HyperPod tâches.

Setup using the SageMaker AI console

Vous trouverez ci-dessous des informations sur la configuration de la gouvernance des HyperPod tâches à l'aide de la SageMaker HyperPod console.

Vous disposez déjà de toutes les autorisations suivantes si vous avez déjà accordé des autorisations pour gérer Amazon CloudWatch Observability EKS et consulter le tableau de bord du HyperPod cluster via la console SageMaker AI duHyperPod Configuration du module complémentaire Amazon CloudWatch Observability EKS. Si vous ne l'avez pas configuré, utilisez l'exemple de politique ci-dessous pour accorder les autorisations nécessaires à la gestion du module complémentaire de gouvernance des HyperPod tâches et à l'affichage du tableau de bord du HyperPod cluster via la console d' SageMaker intelligence artificielle.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Accédez à l'onglet Tableau de bord de la SageMaker HyperPod console pour installer le module complémentaire Amazon SageMaker HyperPod Task Governance.

Setup using the Amazon EKS AWS CLI

Utilisez l'exemple de AWS CLI commande create-addonEKS pour configurer l'API Amazon EKS de gouvernance des HyperPod tâches et l'interface utilisateur de la console à l'aide de AWS CLI :

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Vous pouvez consulter l'onglet Politiques de la console HyperPod SageMaker AI si l'installation a réussi. Vous pouvez également utiliser l'exemple de AWS CLI commande describe-addonEKS suivant pour vérifier l'état.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance