Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Kubernetes en relación con la resiliencia se etiqueta por SageMaker HyperPod
Las etiquetas son pares clave-valor que se adjuntan a los objetos de Kubernetes.
Etiquetas de estado de salud de los nodos
Las node-health-status
etiquetas representan el estado del nodo y se deben utilizar como parte del filtro selector de nodos en los nodos en buen estado.
Etiqueta | Descripción |
---|---|
sagemaker.amazonaws.com/node-health-status:
Schedulable |
El nodo ha superado las comprobaciones de estado básicas y está disponible para ejecutar cargas de trabajo. Esta comprobación de estado es la misma que las funciones de SageMaker HyperPod resiliencia disponibles actualmente para los clústeres de Slurm. |
sagemaker.amazonaws.com/node-health-status:
Unschedulable |
El nodo está realizando comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReplacement |
El nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y necesita ser reemplazado. Si la recuperación automática de nodos está habilitada, el nodo se sustituirá automáticamente por SageMaker HyperPod. |
sagemaker.amazonaws.com/node-health-status:
UnschedulablePendingReboot |
El nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y es necesario reiniciarlo. Si la recuperación automática del nodo está habilitada, el nodo se reiniciará automáticamente mediante. SageMaker HyperPod |
Etiquetas de control de estado exhaustivas
Las deep-health-check-status
etiquetas representan el progreso de una revisión exhaustiva del estado de un nodo específico. Es útil para que los usuarios de Kubernetes puedan filtrar rápidamente el progreso de las comprobaciones de estado exhaustivas generales.
Etiqueta | Descripción |
---|---|
sagemaker.amazonaws.com/deep-health-check-status:
InProgress |
El nodo está realizando comprobaciones de estado exhaustivas y no está disponible para ejecutar cargas de trabajo. |
sagemaker.amazonaws.com/deep-health-check-status:
Passed |
El nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y necesita ser reemplazado. Si la recuperación automática de nodos está habilitada, el nodo se sustituirá automáticamente por SageMaker HyperPod. |
sagemaker.amazonaws.com/deep-health-check-status:
Failed |
El nodo no ha superado las comprobaciones de estado exhaustivas o las comprobaciones del agente de supervisión del estado y es necesario reiniciarlo o sustituirlo. Si la recuperación automática del nodo está habilitada, el nodo se reiniciará automáticamente por. SageMaker HyperPod |
Etiquetas de tipo de error y motivo
A continuación se describen las fault-reason
etiquetas fault-type
y.
-
fault-type
las etiquetas representan categorías de errores de alto nivel cuando las comprobaciones de estado fallan. Se rellenan con los errores detectados durante las comprobaciones exhaustivas del estado y de los agentes de supervisión del estado. -
fault-reason
las etiquetas representan el motivo detallado del error asociado a unfault-type
.
Cómo SageMaker HyperPod las etiquetas
En los siguientes temas, se explica cómo se realiza el etiquetado en función de los distintos casos.
Temas
- Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda deshabilitada
- Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda habilitada
- Cuando se produzca algún fallo informático en los nodos
Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda deshabilitada
Cuando se agrega un nodo nuevo al clúster, y si la comprobación de estado profunda no está habilitada para el grupo de instancias, SageMaker HyperPod ejecuta las mismas comprobaciones de estado que las comprobaciones de SageMaker HyperPod estado disponibles actualmente para los clústeres de Slurm.
Si se aprueba la comprobación de estado, los nodos se marcarán con la siguiente etiqueta.
sagemaker.amazonaws.com/node-health-status: Schedulable
Si la comprobación de estado no se aprueba, los nodos se cancelarán y se sustituirán. Este comportamiento es el mismo que el modo en que funciona la SageMaker HyperPod comprobación de estado de los clústeres de Slurm.
Cuando se agrega un nodo a un SageMaker HyperPod clúster con la configuración de verificación de estado profunda habilitada
Cuando se agrega un nodo nuevo a un SageMaker HyperPod clúster y si la prueba de estado profunda está habilitada para el grupo de instancias, HyperPod primero se mancha el nodo y se inicia la verificación de estado o prueba de esfuerzo profunda de aproximadamente 2 horas en el nodo. Tras la comprobación de estado exhaustiva, hay tres posibles resultados de las etiquetas de los nodos.
-
Cuando se supere la prueba de estado profunda
sagemaker.amazonaws.com/node-health-status: Schedulable
-
Cuando la prueba de estado profunda no pasa y es necesario reemplazar la instancia
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Cuando se produce un error en la prueba de estado profunda y es necesario reiniciar la instancia para volver a ejecutarla
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
Si una instancia no supera la prueba de estado exhaustiva, la instancia siempre se reemplazará. Si las pruebas de estado exhaustivas se realizan correctamente, se eliminará la mancha del nodo.
Cuando se produzca algún fallo informático en los nodos
El agente de supervisión del SageMaker HyperPod estado también supervisa de forma continua el estado de cada nodo. Cuando detecta algún fallo (por ejemplo, un GPU fallo o una caída del controlador), el agente marca el nodo con una de las siguientes etiquetas.
-
Cuando el nodo está en mal estado y es necesario reemplazarlo
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
-
Cuando el nodo está en mal estado y es necesario reiniciarlo
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot
El agente de monitorización de estado también contamina el nodo cuando detecta cualquier problema de estado del nodo.