Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm

Bevor Sie einen SageMaker HyperPod Cluster erstellen und an einen EKS Amazon-Cluster anhängen, sollten Sie Pakete mit Helm, einem Paketmanager für Kubernetes, installieren. Helm ist ein Open-Source-Tool zum Einrichten eines Installationsprozesses für Kubernetes-Cluster. Es ermöglicht die Automatisierung und Rationalisierung von Abhängigkeitsinstallationen und vereinfacht verschiedene Setups, die für die Vorbereitung des EKS Amazon-Clusters als Orchestrator (Kontrollebene) für einen Cluster erforderlich sind. SageMaker HyperPod

Das SageMaker HyperPod Serviceteam stellt ein Helm-Chart-Paket bereit, das wichtige Abhängigkeiten wie EFA Geräte/Plug-ins, Kueue, Kubeflow Training Operator und zugehörige Berechtigungskonfigurationen bündelt.

Wichtig

Dieser Helm-Installationsschritt ist ein erforderlicher Schritt. Wenn Sie Ihren EKS Amazon-Cluster nicht mithilfe des bereitgestellten Helm-Diagramms konfigurieren, kann dies dazu führen, dass der SageMaker HyperPod Cluster nicht richtig funktioniert oder der Erstellungsprozess vollständig fehlschlägt. Der aws-hyperpod Namespace-Name kann nicht geändert werden.

  1. Installieren Sie Helm auf Ihrem lokalen Computer.

  2. Laden Sie die Helm-Diagramme herunter, die SageMaker HyperPod sich unter helm_chart/HyperPodHelmChart im SageMaker HyperPod CLIRepository befinden.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Aktualisieren Sie die Abhängigkeiten des Helm-Diagramms, sehen Sie sich eine Vorschau der Änderungen an, die an Ihrem Kubernetes-Cluster vorgenommen werden, und installieren Sie das Helm-Diagramm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Zusammenfassend lässt sich sagen, dass die Helm-Installation verschiedene Komponenten für Ihren EKS Amazon-Cluster einrichtet, darunter Job Scheduling and Queueing (Kueue), Speicherverwaltung, MLflow Integration und Kubeflow. Darüber hinaus werden in den Diagrammen die folgenden Komponenten für die Integration in die SageMaker HyperPod Cluster-Resilienzfunktionen installiert, bei denen es sich um erforderliche Komponenten handelt.

  • Health Monitoring Agent — Dadurch wird der Health Monitoring Agent installiert, der von bereitgestellt wird. SageMaker HyperPod Dies ist erforderlich, wenn Sie möchten, dass Ihr HyperPod Cluster überwacht wird. Agenten zur Gesundheitsüberwachung werden wie folgt als Docker-Images bereitgestellt. In den im Helm bereitgestellten values.yaml Diagrammen ist das Bild voreingestellt. Die auf Agentenunterstützung GPU basierenden Trainium-accelerator-based Instanzen und Instanzen (trn1trn1n,,inf2). Es ist im aws-hyperpod Namespace installiert.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Deep Health Check — Dadurch werden aClusterRole, a ServiceAccount (deep-health-check-service-account) im aws-hyperpod Namespace und a eingerichtet, ClusterRoleBinding um die SageMaker HyperPod Deep Health Check-Funktion zu aktivieren. Weitere Informationen zur RBAC Kubernetes-Datei für den Deep Health Check finden Sie in der Konfigurationsdatei deep-health-check-rbac.yamlim Repository. SageMaker HyperPod CLI GitHub

  • job-auto-restart- Dadurch werden aClusterRole, a ServiceAccount (job-auto-restart) im aws-hyperpod Namespace und a, eingerichtetClusterRoleBinding, um die automatische Neustartfunktion für PyTorch Trainingsjobs in zu aktivieren. SageMaker HyperPod Weitere Informationen zur RBAC Kubernetes-Datei für job-auto-restart finden Sie in der Konfigurationsdatei job-auto-restart-rbac.yamlim Repository. SageMaker HyperPod CLI GitHub

  • MPIKubeflow-Operator — Der MPIOperator ist ein Kubernetes-Operator, der die Ausführung verteilter Workloads für Machine Learning (ML) und Hochleistungsrechnen () mithilfe des Message Passing Interface (HPCMPI) auf Kubernetes-Clustern vereinfacht. Er installiert Operator v0.5. MPI Es ist im mpi-operator Namespace installiert.

  • nvidia-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie die Nutzung durch Container in Ihrem EKS Amazon-Cluster automatisch NVIDIA GPUs zur Verfügung stellen können. Es ermöglicht Kubernetes, den für diesen Container angeforderten Container zuzuweisen und Zugriff darauf bereitzustellen. GPUs Erforderlich, wenn ein Instanztyp mit verwendet wird. GPU

  • neuron-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie AWS Inferentia-Chips automatisch für den Verbrauch durch Container in Ihrem Amazon-Cluster verfügbar machen können. EKS Es ermöglicht Kubernetes den Zugriff auf die AWS Inferentia-Chips auf den Clusterknoten und deren Nutzung. Erforderlich, wenn ein Neuron-Instanztyp verwendet wird.

  • aws-efa-k8s-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, das die Verwendung von AWS Elastic Fabric Adapter (EFA) auf EKS Amazon-Clustern ermöglicht. EFAist ein Netzwerkgerät, das Kommunikation mit niedriger Latenz und hohem Durchsatz zwischen Instances in einem Cluster ermöglicht. Erforderlich, wenn ein EFA unterstützter Instanztyp verwendet wird.

Weitere Informationen zum Installationsverfahren anhand der bereitgestellten Helm-Diagramme finden Sie in der READMEDatei im SageMaker HyperPod CLI Repository.