Contrôles de santé de base - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Contrôles de santé de base

SageMaker HyperPod effectue un ensemble de contrôles de santé de base sur les instances de cluster lors de la création et de la mise à jour des HyperPod clusters. Ces contrôles de santé de base sont indépendants de l'orchestrateur. Ils sont donc applicables quelles que soient les plateformes d'orchestration sous-jacentes prises en charge par ( SageMaker HyperPod Amazon ou Slurm). EKS

Les contrôles de santé de base surveillent les instances de cluster pour détecter les problèmes liés aux appareils tels que les accélérateurs (GPUet les cœurs Trainium) et les périphériques réseau (Elastic Fabric Adapter, ouEFA). Pour trouver la liste des contrôles de santé de base du cluster, consultez la section Contrôles de santé du cluster.