Einrichtung der Task-Governance - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einrichtung der Task-Governance

Dieser Abschnitt enthält Informationen zur Einrichtung des Amazon SageMaker HyperPod Task Governance EKS-Add-ons. Dazu gehört die Erteilung von Berechtigungen, mit denen Sie die Priorisierung von Aufgaben, die Zuweisung von Rechenleistung für Teams, die Art und Weise, wie ungenutzte Rechenleistung gemeinsam genutzt wird, und das Preemption von Aufgaben für Teams festlegen können.

Falls Sie Probleme bei der Einrichtung haben, finden Sie hier bekannte Lösungen Fehlerbehebung zur Problembehebung.

Einstellungen für die Warteschlange

HyperPod Das Task-Governance-EKS-Add-on installiert Kueue für Ihre HyperPod EKS-Cluster. Kueue ist ein Kubernetes-natives System, das Kontingente und die Art und Weise, wie Jobs sie verbrauchen, verwaltet.

EKS Task Governance als Zusatzversion HyperPod Version von Kueue, die als Teil des Add-ons installiert wird kube-rbac-proxyDiese Version wird als Teil des Add-ons installiert

v1.0.0

v0.8.1

v0.18.1

HyperPod Task Governance nutzt Kueue für Kubernetes-natives Job Queueing, Scheduling und Quotenmanagement und wird zusammen mit dem Task Governance EKS-Add-on installiert. HyperPod Nach der Installation werden SageMaker KI-verwaltete Kubernetes-Ressourcen wie,,, und HyperPod erstellt und geändert. KueueManagerConfig ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Kubernetes-Administratoren haben zwar die Flexibilität, den Status dieser Ressourcen zu ändern, es ist jedoch möglich, dass alle Änderungen, die an einer SageMaker KI-verwalteten Ressource vorgenommen werden, vom Service aktualisiert und überschrieben werden.

Die folgenden Informationen beschreiben die Konfigurationseinstellungen, die vom HyperPod Task Governance-Add-on für die Einrichtung von Kueue verwendet werden.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Weitere Informationen zu den einzelnen Konfigurationseinträgen finden Sie unter Konfiguration in der Kueue-Dokumentation.

HyperPodVoraussetzungen für die Task-Governance

  • Falls Sie dies noch nicht getan haben, finden Sie im Beispiel eine Richtlinie IAM-Benutzer für den Cluster-Administrator für Mindestberechtigungen für HyperPod Clusteradministratoren. Dazu gehören Berechtigungen zum Ausführen des SageMaker HyperPod Kerns APIs und zum Verwalten von SageMaker HyperPod Clustern innerhalb Ihres AWS-Konto Unternehmens sowie zum Ausführen der Aufgaben inSageMaker HyperPod Betrieb.

  • Sie benötigen Ihre Kubernetes-Version >= 1.30. Anweisungen finden Sie unter Aktualisieren vorhandener Cluster auf die neue Kubernetes-Version.

  • Wenn Sie Kueue bereits in ihren Clustern installiert haben, deinstallieren Sie Kueue, bevor Sie das EKS-Add-on installieren.

  • Vor der Installation des HyperPod Task Governance-Add-ons muss bereits ein HyperPod Knoten im EKS-Cluster vorhanden sein.

HyperPod Einrichtung der Task-Governance

Im Folgenden finden Sie Informationen zur Einrichtung der HyperPod Task-Governance.

Setup using the SageMaker AI console

Im Folgenden finden Sie Informationen zur Einrichtung der HyperPod Task-Governance mithilfe der SageMaker HyperPod Konsole.

Ihnen sind bereits alle der folgenden Berechtigungen zugeordnet, wenn Sie bereits Berechtigungen zur Verwaltung von Amazon CloudWatch Observability EKS und zum Anzeigen des HyperPod Cluster-Dashboards über die SageMaker KI-Konsole im erteilt haben. HyperPod Einrichtung des Amazon CloudWatch Observability EKS-Add-ons Wenn Sie dies nicht eingerichtet haben, verwenden Sie die unten stehende Beispielrichtlinie, um Berechtigungen zur Verwaltung des HyperPod Task-Goverance-Add-ons zu erteilen und das HyperPod Cluster-Dashboard über die SageMaker AI-Konsole anzuzeigen.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Navigieren Sie in der SageMaker HyperPod Konsole zum Tab Dashboard, um das Amazon SageMaker HyperPod Task Governance Add-on zu installieren.

Setup using the Amazon EKS AWS CLI

Verwenden Sie den create-addon AWS CLI EKS-Beispielbefehl, um die HyperPod Task-Governance-Amazon EKS-API und die Konsolen-Benutzeroberfläche einzurichten. Verwenden Sie dazu AWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Sie können den Tab Richtlinien in der HyperPod SageMaker AI-Konsole aufrufen, wenn die Installation erfolgreich war. Sie können auch den folgenden describe-addon AWS CLI EKS-Beispielbefehl verwenden, um den Status zu überprüfen.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance