Comprobaciones de estado básicas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comprobaciones de estado básicas

SageMaker HyperPod realiza un conjunto de comprobaciones de estado básicas en las instancias del clúster durante la creación y actualización de HyperPod los clústeres. Estas comprobaciones de estado básicas son independientes del orquestador, por lo que son aplicables independientemente de las plataformas de orquestación subyacentes compatibles ( SageMaker HyperPod Amazon EKS o Slurm).

Las comprobaciones de estado básicas supervisan las instancias del clúster para detectar problemas relacionados con dispositivos, como, por ejemplo, los aceleradores (núcleos de GPU y Trainium) y los dispositivos de red (Elastic Fabric Adapter o EFA). Para ver la lista de comprobaciones de estado básicas del clúster, consulte Cluster health checks.