View a markdown version of this page

Amazon EKS-Cluster für AI/ML Workloads einrichten - Amazon EKS

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon EKS-Cluster für AI/ML Workloads einrichten

Tipp

Melden Sie sich für bevorstehende Amazon AI/ML EKS-Workshops an.

Dieser Abschnitt führt Sie durch die Erstellung eines Amazon EKS-Clusters, das bereit ist, Inferenz-Workloads auszuführen, einschließlich der Berechnung mit GPUs, des Überwachungsstapels und des Amazon S3 S3-Speichers für Modellgewichte, zusammen mit den erforderlichen AWS IAM-Berechtigungen.

Übersicht über die Architektur

Das Setup erstellt die folgende Infrastruktur:

  • EKS-Cluster mit GPU-enabled Knoten — Ein Cluster Karpenter-managed NodePool , der G-family GPU-Instanzen mithilfe von Spot-Kapazität mit On-Demand Fallback dynamisch bereitstellt.

  • Monitoring-Stack — Prometheus scannt Cluster-, Knoten- und GPU-Metriken und schreibt sie per Fernzugriff in Amazon Managed Service for Prometheus (AMP). Grafana bietet Dashboards zur Visualisierung. Der NVIDIA DCGM Exporter fügt GPU-specific Metriken wie Auslastung, Arbeitsspeicher, Temperatur, Stromverbrauch, NVLink-Bandbreite und Tensoraktivität hinzu.

  • Modellgewichte S3-Bucket — Ein Amazon S3 S3-Bucket zum Speichern von Modellgewichten mit einer EKS-Pod-Identity-Zuordnung, die Workload-Pods read/write Zugriff gewährt.

Rechenoptionen für Cluster

Das Handbuch bietet zwei Pfade für die Einrichtung Ihres Clusters. Wählen Sie einen aus und folgen Sie ihm konsequent bei allen Schritten.

  • EKS-Automatikmodus — Ein einziger Befehl stellt einen EKS-Cluster mit aktiviertem EKS-Automatikmodus bereit. Alle erforderlichen Komponenten sind sofort einsatzbereit, darunter Karpenter-based auto-scaling, der EKS-Node-Monitoring-Agent, schnelle Container-Pulls mit SOCI und das NVIDIA-Geräte-Plugin.

  • Self-managed Karpenter — Sie installieren und konfigurieren jede Komponente explizit: Karpenter über die automatische Knotenreparatur über das Feature-Gateeksctl, den EKS-Node-Monitoring-Agenten als EKS-Add-on und das NVIDIA-Geräte-Plugin über Helm. Sie erstellen auch ein benutzerdefiniertes SystemEC2NodeClass, das die EKS-optimized NVIDIA AL2023-AMIs verwendet und SOCI konfiguriert.

Was werden Sie einrichten

Schritt Description

Cluster erstellen

Stellen Sie die EKS-Steuerungsebene und die Komponenten auf Clusterebene bereit, die für GPU-Workloads benötigt werden.

Erstellen Sie dynamisch bereitgestellte GPU-Knoten

Definieren Sie eine dynamische GPU NodePool , die G-family GPU-Instanzen bereitstellt, wenn Workloads geplant sind.

Testen Sie mit einem Beispiel-Pod

Überprüfen Sie das Setup von Anfang bis Ende, indem Sie einen nvidia-smi Pod ausführen, der Karpenter veranlasst, einen GPU-enabled Knoten bereitzustellen.

Reservierte Kapazität hinzufügen (optional)

Fügen Sie Ihrer Reservierung eine On-Demand Kapazitätsreservierung (ODCR) NodeClass für die Option „Zuerst reserviert“ mit Fallback bei. Spot/On-Demand

Installieren Sie die Überwachung

Stellen Sie kube-prometheus-stack (Prometheus + Grafana) mit Remote-Write-Funktion auf AMP sowie dem NVIDIA DCGM Exporter für GPU-Metriken bereit.

Erstellen Sie einen Bucket für Modellgewichte

Erstellen Sie einen S3-Bucket und konfigurieren Sie EKS Pod Identity so, dass Workload-Pods Modellgewichte lesen und schreiben können.

Erste Schritte

Eine schrittweise Anleitung zur Verwendung der AWS CLI finden Sie unterAmazon EKS-Cluster für AI/ML Workloads mithilfe von CLIs einrichten.