Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Installieren Sie Pakete auf dem Amazon EKS-Cluster mit Helm

Bevor Sie einen SageMaker HyperPod Cluster erstellen und an einen Amazon EKS-Cluster anhängen, sollten Sie Pakete mit Helm, einem Paketmanager für Kubernetes, installieren. Helm ist ein Open-Source-Tool zum Einrichten eines Installationsprozesses für Kubernetes-Cluster. Es ermöglicht die Automatisierung und Rationalisierung von Abhängigkeitsinstallationen und vereinfacht verschiedene Setups, die für die Vorbereitung des Amazon EKS-Clusters als Orchestrator (Kontrollebene) für einen Cluster erforderlich sind. SageMaker HyperPod

Das SageMaker HyperPod Serviceteam stellt ein Helm-Chart-Paket bereit, das wichtige Abhängigkeiten wie Geräte-/EFA-Plug-ins, Plug-ins, Kubeflow Training Operator und zugehörige Berechtigungskonfigurationen bündelt.

Wichtig

Dieser Helm-Installationsschritt ist ein erforderlicher Schritt. Wenn Sie Ihren Amazon EKS-Cluster nicht mithilfe des bereitgestellten Helm-Diagramms konfigurieren, kann dies dazu führen, dass der SageMaker HyperPod Cluster nicht richtig funktioniert oder der Erstellungsprozess vollständig fehlschlägt. Der aws-hyperpod Namespace-Name kann nicht geändert werden.

  1. Installieren Sie Helm auf Ihrem lokalen Computer.

  2. Laden Sie die Helm-Charts herunter, die SageMaker HyperPod sich unter helm_chart/HyperPodHelmChart im SageMaker HyperPod CLI-Repository befinden.

    git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart
  3. Aktualisieren Sie die Abhängigkeiten des Helm-Diagramms, sehen Sie sich eine Vorschau der Änderungen an, die an Ihrem Kubernetes-Cluster vorgenommen werden, und installieren Sie das Helm-Diagramm.

    helm dependencies update HyperPodHelmChart
    helm install hyperpod-dependencies HyperPodHelmChart --dry-run
    helm install hyperpod-dependencies HyperPodHelmChart

Zusammenfassend lässt sich sagen, dass die Helm-Installation verschiedene Komponenten für Ihren Amazon EKS-Cluster einrichtet, darunter Job Scheduling and Queueing (Kueue), Speicherverwaltung, MLflow Integration und Kubeflow. Darüber hinaus werden in den Diagrammen die folgenden Komponenten für die Integration in die SageMaker HyperPod Cluster-Resilienzfunktionen installiert, bei denen es sich um erforderliche Komponenten handelt.

  • Health Monitoring Agent — Dadurch wird der Health Monitoring Agent installiert, der von bereitgestellt wird. SageMaker HyperPod Dies ist erforderlich, wenn Sie möchten, dass Ihr HyperPod Cluster überwacht wird. Agenten zur Gesundheitsüberwachung werden wie folgt als Docker-Images bereitgestellt. In den im Helm bereitgestellten values.yaml Diagrammen ist das Bild voreingestellt. Der Agent unterstützt GPU-basierte Instanzen und Trainium-accelerator-based Instanzen (trn1,trn1n,inf2). Er ist im Namespace installiert. aws-hyperpod

    590183648699.dkr.ecr.us-west-2.amazonaws.com/hyperpod-health-monitoring-agent:1.0.230.0_1.0.19.0
  • Deep Health Check — Dadurch werden aClusterRole, a ServiceAccount (deep-health-check-service-account) im aws-hyperpod Namespace und a eingerichtet, ClusterRoleBinding um die SageMaker HyperPod Deep Health Check-Funktion zu aktivieren. Weitere Informationen zur Kubernetes-RBAC-Datei für den Deep Health Check finden Sie in der Konfigurationsdatei deep-health-check-rbac.yamlim CLI-Repository. SageMaker HyperPod GitHub

  • job-auto-restart- Dadurch werden aClusterRole, a ServiceAccount (job-auto-restart) im aws-hyperpod Namespace und a, eingerichtetClusterRoleBinding, um die automatische Neustartfunktion für PyTorch Trainingsjobs in zu aktivieren. SageMaker HyperPod Weitere Informationen zur Kubernetes-RBAC-Datei für job-auto-restart finden Sie in der Konfigurationsdatei job-auto-restart-rbac.yamlim CLI-Repository. SageMaker HyperPod GitHub

  • Kubeflow MPI operator — Der MPI Operator ist ein Kubernetes-Operator, der die Ausführung verteilter Workloads für Machine Learning (ML) und Hochleistungsrechnen (HPC) mithilfe des Message Passing Interface (MPI) auf Kubernetes-Clustern vereinfacht. Er installiert MPI Operator v0.5. Es ist im Namespace installiert. mpi-operator

  • nvidia-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie NVIDIA automatisch GPUs für die Nutzung durch Container in Ihrem Amazon EKS-Cluster verfügbar machen können. Es ermöglicht Kubernetes, den für diesen Container angeforderten Container zuzuweisen und Zugriff darauf bereitzustellen. GPUs Erforderlich, wenn ein Instanztyp mit GPU verwendet wird.

  • neuron-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, mit dem Sie AWS Inferentia-Chips automatisch für den Verbrauch durch Container in Ihrem Amazon EKS-Cluster verfügbar machen können. Es ermöglicht Kubernetes den Zugriff auf die AWS Inferentia-Chips auf den Clusterknoten und deren Nutzung. Erforderlich, wenn ein Neuron-Instanztyp verwendet wird.

  • aws-efa-k8s-device-plugin— Dies ist ein Kubernetes-Geräte-Plug-in, das die Verwendung des AWS Elastic Fabric Adapter (EFA) auf Amazon EKS-Clustern ermöglicht. EFA ist ein Netzwerkgerät, das Kommunikation mit niedriger Latenz und hohem Durchsatz zwischen Instances in einem Cluster ermöglicht. Erforderlich, wenn ein von EFA unterstützter Instance-Typ verwendet wird.

Weitere Informationen zum Installationsverfahren mithilfe der bereitgestellten Helm-Diagramme finden Sie in der README-Datei im SageMaker HyperPod CLI-Repository.