Grundlegende Gesundheitschecks - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Grundlegende Gesundheitschecks

SageMaker HyperPod führt während der Erstellung und Aktualisierung von Clustern eine Reihe grundlegender Integritätsprüfungen für HyperPod Cluster-Instances durch. Diese grundlegenden Zustandsprüfungen sind orchestratorunabhängig, sodass diese Prüfungen unabhängig von den zugrunde liegenden Orchestrierungsplattformen, die von (Amazon oder Slurm) unterstützt werden, anwendbar sind. SageMaker HyperPod EKS

Bei den grundlegenden Zustandsprüfungen werden Cluster-Instances auf Probleme im Zusammenhang mit Geräten wie Beschleunigern (GPUund Trainium-Kernen) und Netzwerkgeräten (Elastic Fabric Adapter oder) überwacht. EFA Eine Liste der grundlegenden Cluster-Zustandsprüfungen finden Sie unter Cluster-Zustandsprüfungen.