Solución de problemas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas

La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres HyperPod EKS.

Pestaña Panel

No se puede instalar el complemento EKS

Para que la instalación del complemento EKS se realice correctamente, necesitará tener una versión de Kubernets >= 1.30. Para actualizar, consulta Actualizar la versión de Kubernetes.

Para que la instalación del complemento EKS se realice correctamente, todos los nodos deben estar en estado Listo y todos los pods deben estar en estado En ejecución.

Para comprobar el estado de los nodos, utilice el list-cluster-nodes AWS CLI comando o vaya al clúster de EKS en la consola de EKS y consulte el estado de los nodos. Resuelva el problema de cada nodo o póngase en contacto con su administrador. Si el estado del nodo es Desconocido, elimínelo. Cuando todos los estados de los nodos estén listos, vuelva a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para comprobar el estado de los pods, usa el kubectl get pods -n cloudwatch-agent comando CLI de Kubernetes o navega hasta el clúster de EKS en la consola de EKS y consulta el estado de los pods con el espacio de nombres. cloudwatch-agent Resuelve el problema de los pods o ponte en contacto con tu administrador para resolverlo. Cuando todos los estados de los pods estén en ejecución, vuelve a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para obtener más información sobre la solución de problemas, consulte Solución de problemas del complemento Amazon CloudWatch Observability EKS.

Pestaña de tareas

Si aparece un mensaje de error que indica que la definición de recursos personalizada (CRD) no está configurada en el clúster, asígnele la función de ejecución de su dominio EKSAdminViewPolicy y asígnele ClusterAccessRole políticas.

Políticas

A continuación, se enumeran las soluciones a los errores relacionados con las políticas que se utilizan con la consola HyperPod APIs o.

  • Si la política está en CreateRollbackFailed estado CreateFailed o estado, debe eliminar la política fallida y crear una nueva.

  • Si la política está en UpdateFailed estado, vuelva a intentar la actualización con el mismo ARN de política.

  • Si la política está en UpdateRollbackFailed estado, debe eliminar la política fallida y, a continuación, crear una nueva.

  • Si la política está en DeleteRollbackFailed estado DeleteFailed o, vuelva a intentar eliminarla con el mismo ARN de política.

    • Si se ha producido un error al intentar eliminar la política de priorización de procesamiento o de clúster mediante la HyperPod consola, intente eliminarla cluster-scheduler-config mediante la API. Para comprobar el estado del recurso, ve a la página de detalles de una asignación de cómputo.

Para ver más detalles sobre el error, usa la API de descripción.