Trainingsjobs auf einem heterogenen Cluster ausführen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Trainingsjobs auf einem heterogenen Cluster ausführen

Mithilfe der Funktion für heterogene Cluster von SageMaker Training können Sie einen Trainingsjob mit mehreren Typen von ML-Instances ausführen, um die Ressourcen für verschiedene ML-Trainingsaufgaben und -zwecke besser skalieren und nutzen zu können. Wenn bei Ihrem Trainingsauftrag auf einem Cluster mit GPU-Instances beispielsweise eine geringe GPU-Auslastung und CPU-Engpässe aufgrund von CPU-intensiven Aufgaben auftreten, kann die Verwendung eines heterogenen Clusters dazu beitragen, CPU-intensive Aufgaben auszulagern, indem kostengünstigere CPU-Instance-Gruppen hinzugefügt, solche Engpässe behoben und eine bessere GPU-Auslastung erreicht werden.

Anmerkung

Diese Funktion ist im SageMaker Python SDK v2.98.0 und höher verfügbar.

Anmerkung

Diese Funktion ist in den Klassen SageMaker AI PyTorchund TensorFlowFramework Estimator verfügbar. Unterstützte Frameworks sind PyTorch v1.10 oder höher und TensorFlow v2.6 oder höher.

Lesen Sie auch den Blog Verbessern Sie das Preis-Leistungs-Verhältnis Ihres Modelltrainings mithilfe von heterogenen Amazon SageMaker AI-Clustern.