Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de gobierno de tareas
En esta sección se incluye información sobre cómo configurar el complemento Amazon SageMaker HyperPod Task Governance EKS. Esto incluye la concesión de permisos que permiten establecer la priorización de las tareas, la asignación de recursos para los equipos, la forma en que se comparte el procesamiento inactivo y la prioridad de tareas para los equipos.
Si tiene problemas con la configuración, consulte las soluciones de solución Solución de problemas de problemas conocidas.
Temas
Configuración de Kueue
HyperPod El complemento EKS de gobierno de tareas instala Kueue para sus clústeres de EKS
Versión HyperPod complementaria de gobierno de tareas de EKS | Versión de Kueue que se instala como parte del complemento | Esta versión kube-rbac-proxy está instalada como parte del complemento |
---|---|---|
v1.0.0 |
v0.8.1 |
v0.18.1 |
HyperPod La gobernanza de tareas utiliza Kueue para gestionar las colas de trabajos, la programación y las cuotas, de forma nativa de Kubernetes, y se instala con el complemento EKS de gobernanza de tareas. HyperPod Cuando se instala, HyperPod crea y modifica los recursos de Kubernetes gestionados por la SageMaker IA, como,,, y. KueueManagerConfig
ClusterQueues
LocalQueues
WorkloadPriorityClasses
ResourceFlavors
ValidatingAdmissionPolicies
Si bien los administradores de Kubernetes tienen la flexibilidad de modificar el estado de estos recursos, es posible que el servicio actualice y sobrescriba cualquier cambio realizado en un recurso administrado por la SageMaker IA.
La siguiente información describe los ajustes de configuración que utiliza el complemento de gobierno de HyperPod tareas para configurar Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Para obtener más información sobre cada entrada de configuración, consulte Configuración
HyperPodRequisitos previos de gobierno de tareas
-
Si aún no lo ha hecho, consulte Usuarios de IAM para la administración de clústeres el ejemplo de la política de permisos mínimos para los administradores de HyperPod clústeres. Esto incluye los permisos para ejecutar el SageMaker HyperPod núcleo APIs y administrar SageMaker HyperPod los clústeres dentro de los suyos Cuenta de AWS, así como para realizar las tareas en ellosSageMaker HyperPod operación.
-
Necesitarás tener tu versión de Kubernetes >= 1.30. Para obtener instrucciones, consulta Actualizar los clústeres existentes a la nueva versión de Kubernetes.
-
Si ya tienes Kueue instalado en sus clústeres, desinstala Kueue antes de instalar el complemento EKS.
-
Debe existir ya un HyperPod nodo en el clúster de EKS antes de instalar el complemento de gobierno de HyperPod tareas.
HyperPod configuración de gobierno de tareas
A continuación, se proporciona información sobre cómo configurar la gobernanza de HyperPod tareas.
Si la instalación se ha realizado correctamente, puede ver la pestaña Políticas en la consola de HyperPod SageMaker IA. También puede utilizar el siguiente AWS CLI comando describe-addon
aws eks describe-addon --region
region
--cluster-namecluster-name
--addon-name amazon-sagemaker-hyperpod-taskgovernance