Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm
Bevor Sie einen SageMaker HyperPod Cluster erstellen und an einen EKS Amazon-Cluster anhängen, sollten Sie Pakete mit Helm
Das SageMaker HyperPod Serviceteam stellt ein Helm-Chart-Paket bereit, das wichtige Abhängigkeiten wie EFA Geräte/Plug-ins, Kueue, Kubeflow
Wichtig
Dieser Helm-Installationsschritt ist ein erforderlicher Schritt. Wenn Sie Ihren EKS Amazon-Cluster nicht mithilfe des bereitgestellten Helm-Diagramms konfigurieren, kann dies dazu führen, dass der SageMaker HyperPod Cluster nicht richtig funktioniert oder der Erstellungsprozess vollständig fehlschlägt. Der aws-hyperpod
Namespace-Name kann nicht geändert werden.
-
Installieren Sie Helm
auf Ihrem lokalen Computer. -
Laden Sie die Helm-Diagramme herunter, die SageMaker HyperPod sich unter
helm_chart/HyperPodHelmChart
im SageMaker HyperPod CLIRepositorybefinden. git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
-
Aktualisieren Sie die Abhängigkeiten des Helm-Diagramms, sehen Sie sich eine Vorschau der Änderungen an, die an Ihrem Kubernetes-Cluster vorgenommen werden, und installieren Sie das Helm-Diagramm.
helm dependencies update HyperPodHelmChart
helm install hyperpod-dependencies HyperPodHelmChart --dry-run
helm install hyperpod-dependencies HyperPodHelmChart
Zusammenfassend lässt sich sagen, dass die Helm-Installation verschiedene Komponenten für Ihren EKS Amazon-Cluster einrichtet, darunter Job Scheduling and Queueing (Kueue), Speicherverwaltung, MLflow Integration und Kubeflow. Darüber hinaus werden in den Diagrammen die folgenden Komponenten für die Integration in die SageMaker HyperPod Cluster-Resilienzfunktionen installiert, bei denen es sich um erforderliche Komponenten handelt.
-
Health Monitoring Agent — Dadurch wird der Health Monitoring Agent installiert, der von bereitgestellt wird. SageMaker HyperPod Dies ist erforderlich, wenn Sie möchten, dass Ihr HyperPod Cluster überwacht wird. Agenten zur Gesundheitsüberwachung werden wie folgt als Docker-Images bereitgestellt. In den im Helm bereitgestellten
values.yaml
Diagrammen ist das Bild voreingestellt. Die auf Agentenunterstützung GPU basierenden Trainium-accelerator-based Instanzen und Instanzen (trn1
trn1n
,,inf2
). Es ist imaws-hyperpod
Namespace installiert.590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
-
Deep Health Check — Dadurch werden a
ClusterRole
, a ServiceAccount (deep-health-check-service-account
) imaws-hyperpod
Namespace und a eingerichtet,ClusterRoleBinding
um die SageMaker HyperPod Deep Health Check-Funktion zu aktivieren. Weitere Informationen zur RBAC Kubernetes-Datei für den Deep Health Check finden Sie in der Konfigurationsdateideep-health-check-rbac.yaml
im Repository. SageMaker HyperPod CLI GitHub -
job-auto-restart
- Dadurch werden aClusterRole
, a ServiceAccount (job-auto-restart
) imaws-hyperpod
Namespace und a, eingerichtetClusterRoleBinding
, um die automatische Neustartfunktion für PyTorch Trainingsjobs in zu aktivieren. SageMaker HyperPod Weitere Informationen zur RBAC Kubernetes-Datei fürjob-auto-restart
finden Sie in der Konfigurationsdateijob-auto-restart-rbac.yaml
im Repository. SageMaker HyperPod CLI GitHub -
MPIKubeflow-Operator — Der MPIOperator
ist ein Kubernetes-Operator, der die Ausführung verteilter Workloads für Machine Learning (ML) und Hochleistungsrechnen () mithilfe des Message Passing Interface (HPCMPI) auf Kubernetes-Clustern vereinfacht. Er installiert Operator v0.5. MPI Es ist im mpi-operator
Namespace installiert. -
nvidia-device-plugin
— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie die Nutzung durch Container in Ihrem EKS Amazon-Cluster automatisch NVIDIA GPUs zur Verfügung stellen können. Es ermöglicht Kubernetes, den für diesen Container angeforderten Container zuzuweisen und Zugriff darauf bereitzustellen. GPUs Erforderlich, wenn ein Instanztyp mit verwendet wird. GPU -
neuron-device-plugin
— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie AWS Inferentia-Chips automatisch für den Verbrauch durch Container in Ihrem Amazon-Cluster verfügbar machen können. EKS Es ermöglicht Kubernetes den Zugriff auf die AWS Inferentia-Chips auf den Clusterknoten und deren Nutzung. Erforderlich, wenn ein Neuron-Instanztyp verwendet wird. -
aws-efa-k8s-device-plugin
— Dies ist ein Kubernetes-Geräte-Plug-in, das die Verwendung von AWS Elastic Fabric Adapter (EFA) auf EKS Amazon-Clustern ermöglicht. EFAist ein Netzwerkgerät, das Kommunikation mit niedriger Latenz und hohem Durchsatz zwischen Instances in einem Cluster ermöglicht. Erforderlich, wenn ein EFA unterstützter Instanztyp verwendet wird.
Weitere Informationen zum Installationsverfahren anhand der bereitgestellten Helm-Diagramme finden Sie in der READMEDatei im SageMaker HyperPod CLI Repository