Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Einrichtung der Task-Governance
Dieser Abschnitt enthält Informationen zur Einrichtung des Amazon SageMaker HyperPod Task Governance EKS-Add-ons. Dazu gehört die Erteilung von Berechtigungen, mit denen Sie die Priorisierung von Aufgaben, die Zuweisung von Rechenleistung für Teams, die Art und Weise, wie ungenutzte Rechenleistung gemeinsam genutzt wird, und das Preemption von Aufgaben für Teams festlegen können.
Falls Sie Probleme bei der Einrichtung haben, finden Sie hier bekannte Lösungen Fehlerbehebung zur Problembehebung.
Themen
Einstellungen für die Warteschlange
HyperPod Das Task-Governance-EKS-Add-on installiert Kueue
EKS Task Governance als Zusatzversion HyperPod | Version von Kueue, die als Teil des Add-ons installiert wird | kube-rbac-proxyDiese Version wird als Teil des Add-ons installiert |
---|---|---|
v1.0.0 |
v0.8.1 |
v0.18.1 |
HyperPod Task Governance nutzt Kueue für Kubernetes-natives Job Queueing, Scheduling und Quotenmanagement und wird zusammen mit dem Task Governance EKS-Add-on installiert. HyperPod Nach der Installation werden SageMaker KI-verwaltete Kubernetes-Ressourcen wie,,, und HyperPod erstellt und geändert. KueueManagerConfig
ClusterQueues
LocalQueues
WorkloadPriorityClasses
ResourceFlavors
ValidatingAdmissionPolicies
Kubernetes-Administratoren haben zwar die Flexibilität, den Status dieser Ressourcen zu ändern, es ist jedoch möglich, dass alle Änderungen, die an einer SageMaker KI-verwalteten Ressource vorgenommen werden, vom Service aktualisiert und überschrieben werden.
Die folgenden Informationen beschreiben die Konfigurationseinstellungen, die vom HyperPod Task Governance-Add-on für die Einrichtung von Kueue verwendet werden.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Weitere Informationen zu den einzelnen Konfigurationseinträgen finden Sie unter Konfiguration
HyperPodVoraussetzungen für die Task-Governance
-
Falls Sie dies noch nicht getan haben, finden Sie im Beispiel eine Richtlinie IAM-Benutzer für den Cluster-Administrator für Mindestberechtigungen für HyperPod Clusteradministratoren. Dazu gehören Berechtigungen zum Ausführen des SageMaker HyperPod Kerns APIs und zum Verwalten von SageMaker HyperPod Clustern innerhalb Ihres AWS-Konto Unternehmens sowie zum Ausführen der Aufgaben inSageMaker HyperPod Betrieb.
-
Sie benötigen Ihre Kubernetes-Version >= 1.30. Anweisungen finden Sie unter Aktualisieren vorhandener Cluster auf die neue Kubernetes-Version.
-
Wenn Sie Kueue bereits in ihren Clustern installiert haben, deinstallieren Sie Kueue, bevor Sie das EKS-Add-on installieren.
-
Vor der Installation des HyperPod Task Governance-Add-ons muss bereits ein HyperPod Knoten im EKS-Cluster vorhanden sein.
HyperPod Einrichtung der Task-Governance
Im Folgenden finden Sie Informationen zur Einrichtung der HyperPod Task-Governance.
Sie können den Tab Richtlinien in der HyperPod SageMaker AI-Konsole aufrufen, wenn die Installation erfolgreich war. Sie können auch den folgenden describe-addon
aws eks describe-addon --region
region
--cluster-namecluster-name
--addon-name amazon-sagemaker-hyperpod-taskgovernance