Übersicht über die Architektur Rechenoptionen für Cluster Was werden Sie einrichten Erste Schritte

Unterstützung für die Verbesserung dieser Seite beitragen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Um zu diesem Benutzerhandbuch beizutragen, wählen Sie den GitHub Link Diese Seite bearbeiten auf, der sich im rechten Bereich jeder Seite befindet.

Amazon EKS-Cluster für AI/ML Workloads einrichten

Tipp

Melden Sie sich für bevorstehende Amazon AI/ML EKS-Workshops an.

Dieser Abschnitt führt Sie durch die Erstellung eines Amazon EKS-Clusters, das bereit ist, Inferenz-Workloads auszuführen, einschließlich der Berechnung mit GPUs, des Überwachungsstapels und des Amazon S3 S3-Speichers für Modellgewichte, zusammen mit den erforderlichen AWS IAM-Berechtigungen.

Übersicht über die Architektur

Das Setup erstellt die folgende Infrastruktur:

EKS-Cluster mit GPU-enabled Knoten — Ein Cluster Karpenter-managed NodePool , der G-family GPU-Instanzen mithilfe von Spot-Kapazität mit On-Demand Fallback dynamisch bereitstellt.
Monitoring-Stack — Prometheus scannt Cluster-, Knoten- und GPU-Metriken und schreibt sie per Fernzugriff in Amazon Managed Service for Prometheus (AMP). Grafana bietet Dashboards zur Visualisierung. Der NVIDIA DCGM Exporter fügt GPU-specific Metriken wie Auslastung, Arbeitsspeicher, Temperatur, Stromverbrauch, NVLink-Bandbreite und Tensoraktivität hinzu.
Modellgewichte S3-Bucket — Ein Amazon S3 S3-Bucket zum Speichern von Modellgewichten mit einer EKS-Pod-Identity-Zuordnung, die Workload-Pods read/write Zugriff gewährt.

Rechenoptionen für Cluster

Das Handbuch bietet zwei Pfade für die Einrichtung Ihres Clusters. Wählen Sie einen aus und folgen Sie ihm konsequent bei allen Schritten.

EKS-Automatikmodus — Ein einziger Befehl stellt einen EKS-Cluster mit aktiviertem EKS-Automatikmodus bereit. Alle erforderlichen Komponenten sind sofort einsatzbereit, darunter Karpenter-based auto-scaling, der EKS-Node-Monitoring-Agent, schnelle Container-Pulls mit SOCI und das NVIDIA-Geräte-Plugin.
Self-managed Karpenter — Sie installieren und konfigurieren jede Komponente explizit: Karpenter über die automatische Knotenreparatur über das Feature-Gateeksctl, den EKS-Node-Monitoring-Agenten als EKS-Add-on und das NVIDIA-Geräte-Plugin über Helm. Sie erstellen auch ein benutzerdefiniertes SystemEC2NodeClass, das die EKS-optimized NVIDIA AL2023-AMIs verwendet und SOCI konfiguriert.

Was werden Sie einrichten

Schritt	Description
Cluster erstellen	Stellen Sie die EKS-Steuerungsebene und die Komponenten auf Clusterebene bereit, die für GPU-Workloads benötigt werden.
Erstellen Sie dynamisch bereitgestellte GPU-Knoten	Definieren Sie eine dynamische GPU NodePool , die G-family GPU-Instanzen bereitstellt, wenn Workloads geplant sind.
Testen Sie mit einem Beispiel-Pod	Überprüfen Sie das Setup von Anfang bis Ende, indem Sie einen `nvidia-smi` Pod ausführen, der Karpenter veranlasst, einen GPU-enabled Knoten bereitzustellen.
Reservierte Kapazität hinzufügen (optional)	Fügen Sie Ihrer Reservierung eine On-Demand Kapazitätsreservierung (ODCR) NodeClass für die Option „Zuerst reserviert“ mit Fallback bei. Spot/On-Demand
Installieren Sie die Überwachung	Stellen Sie kube-prometheus-stack (Prometheus + Grafana) mit Remote-Write-Funktion auf AMP sowie dem NVIDIA DCGM Exporter für GPU-Metriken bereit.
Erstellen Sie einen Bucket für Modellgewichte	Erstellen Sie einen S3-Bucket und konfigurieren Sie EKS Pod Identity so, dass Workload-Pods Modellgewichte lesen und schreiben können.

Erste Schritte

Eine schrittweise Anleitung zur Verwendung der AWS CLI finden Sie unterAmazon EKS-Cluster für AI/ML Workloads mithilfe von CLIs einrichten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

AI/ML auf EKS

Command-line Schnittstelle (CLI)