Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie Pakete auf dem EKS Amazon-Cluster mit Helm

Bevor Sie einen SageMaker HyperPod Cluster erstellen und an einen EKS Amazon-Cluster anhängen, sollten Sie Pakete mit Helm, einem Paketmanager für Kubernetes, installieren. Helm ist ein Open-Source-Tool zum Einrichten eines Installationsprozesses für Kubernetes-Cluster. Es ermöglicht die Automatisierung und Rationalisierung von Abhängigkeitsinstallationen und vereinfacht verschiedene Setups, die für die Vorbereitung des EKS Amazon-Clusters als Orchestrator (Kontrollebene) für einen Cluster erforderlich sind. SageMaker HyperPod

Das SageMaker HyperPod Serviceteam stellt ein Helm-Chart-Paket bereit, das wichtige Abhängigkeiten wie EFA Geräte/Plug-ins, Kueue, Kubeflow Training Operator und zugehörige Berechtigungskonfigurationen bündelt.

Wichtig

Dieser Helm-Installationsschritt ist ein erforderlicher Schritt. Wenn Sie Ihren EKS Amazon-Cluster nicht mithilfe des bereitgestellten Helm-Diagramms konfigurieren, kann dies dazu führen, dass der SageMaker HyperPod Cluster nicht richtig funktioniert oder der Erstellungsprozess vollständig fehlschlägt. Der aws-hyperpod Namespace-Name kann nicht geändert werden.

  1. Installieren Sie Helm auf Ihrem lokalen Computer.

  2. Laden Sie die Helm-Diagramme herunter, die SageMaker HyperPod sich unter helm_chart/HyperPodHelmChart im SageMaker HyperPod CLIRepository befinden.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Aktualisieren Sie die Abhängigkeiten des Helm-Diagramms, sehen Sie sich eine Vorschau der Änderungen an, die an Ihrem Kubernetes-Cluster vorgenommen werden, und installieren Sie das Helm-Diagramm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Zusammenfassend lässt sich sagen, dass die Helm-Installation verschiedene Komponenten für Ihren EKS Amazon-Cluster einrichtet, darunter Job Scheduling and Queueing (Kueue), Speicherverwaltung, MLflow Integration und Kubeflow. Darüber hinaus werden in den Diagrammen die folgenden Komponenten für die Integration in die SageMaker HyperPod Cluster-Resilienzfunktionen installiert, bei denen es sich um erforderliche Komponenten handelt.

  • Health Monitoring Agent — Dadurch wird der Health Monitoring Agent installiert, der von bereitgestellt wird. SageMaker HyperPod Dies ist erforderlich, wenn Sie möchten, dass Ihr HyperPod Cluster überwacht wird. Agenten zur Gesundheitsüberwachung werden wie folgt als Docker-Images bereitgestellt. In den bereitgestellten values.yaml in den Helm-Diagrammen ist das Bild voreingestellt. Der Agent unterstützt Instanzen GPU und rainium-accelerator-based T-Instanzen (trn1,,trn1n). inf2 Es ist im aws-hyperpod Namespace installiert.

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Deep Health Check — Dadurch wird das SageMaker HyperPod Deep-Health-Check-Dienstkonto und der ClusterRoleBinding aws-hyperpod Namespace eingerichtet. ClusterRole

  • MPIKubeflow-Operator — Der MPIOperator ist ein Kubernetes-Operator, der die Ausführung verteilter Workloads für Machine Learning (ML) und Hochleistungsrechnen () mithilfe des Message Passing Interface (HPCMPI) auf Kubernetes-Clustern vereinfacht. Er installiert Operator v0.5. MPI Es ist im mpi-operator Namespace installiert.

  • nvidia-device-plugin— Dies ist ein Kubernetes-Geräte-Plugin, mit dem Sie es automatisch NVIDIA GPUs für die Nutzung durch Container in Ihrem EKS Amazon-Cluster verfügbar machen können. Es ermöglicht Kubernetes, den für diesen Container angeforderten Container zuzuweisen und Zugriff darauf bereitzustellen. GPUs Erforderlich, wenn ein Instanztyp mit verwendet wird. GPU

  • neuron-device-plugin— Dies ist ein Kubernetes-Geräte-Plugin, mit dem Sie automatisch verfügbar machen können AWS Inferentia-Chips für den Verbrauch durch Container in Ihrem EKS Amazon-Cluster. Es ermöglicht Kubernetes den Zugriff auf und die Nutzung von AWS Inferentia-Chips auf den Clusterknoten. Erforderlich, wenn ein Neuron-Instanztyp verwendet wird.

  • aws-efa-k8s-device-plugin— Dies ist ein Kubernetes-Geräte-Plugin, das die Verwendung von ermöglicht AWS Elastic Fabric Adapter (EFA) auf EKS Amazon-Clustern. EFAist ein Netzwerkgerät, das Kommunikation mit niedriger Latenz und hohem Durchsatz zwischen Instances in einem Cluster ermöglicht. Erforderlich, wenn ein EFA unterstützter Instanztyp verwendet wird.

Weitere Informationen zum Installationsverfahren anhand der bereitgestellten Helm-Diagramme finden Sie in der READMEDatei im SageMaker HyperPod CLI Repository.