Pestaña Panel Pestaña de tareas Políticas

Solución de problemas

La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres HyperPod EKS.

Temas

Pestaña Panel
Pestaña de tareas
Políticas

Pestaña Panel

No se puede instalar el complemento EKS

Para que la instalación del complemento EKS se realice correctamente, necesitará tener una versión de Kubernets >= 1.30. Para actualizar, consulta Actualizar la versión de Kubernetes.

Para que la instalación del complemento EKS se realice correctamente, todos los nodos deben estar en estado Listo y todos los pods deben estar en estado En ejecución.

Para comprobar el estado de los nodos, utilice el list-cluster-nodes AWS CLI comando o vaya al clúster de EKS en la consola de EKS y consulte el estado de los nodos. Resuelva el problema de cada nodo o póngase en contacto con su administrador. Si el estado del nodo es Desconocido, elimínelo. Cuando todos los estados de los nodos estén listos, vuelva a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para comprobar el estado de los pods, usa el kubectl get pods -n cloudwatch-agent comando CLI de Kubernetes o navega hasta el clúster de EKS en la consola de EKS y consulta el estado de los pods con el espacio de nombres. cloudwatch-agent Resuelve el problema de los pods o ponte en contacto con tu administrador para resolverlo. Cuando todos los estados de los pods estén en ejecución, vuelve a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI.

Para obtener más información sobre la solución de problemas, consulte Solución de problemas del complemento Amazon CloudWatch Observability EKS.

Pestaña de tareas

Si aparece un mensaje de error que indica que la definición de recursos personalizada (CRD) no está configurada en el clúster, asígnele la función de ejecución de su dominio EKSAdminViewPolicy y asígnele ClusterAccessRole políticas.

Para obtener información sobre cómo obtener el rol de ejecución, consulte Obtención del rol de ejecución.
Para obtener información sobre cómo asociar políticas a un usuario o grupo de IAM, consulte Añadir y eliminar permisos de identidad de IAM.

Políticas

A continuación, se enumeran las soluciones a los errores relacionados con las políticas que se utilizan con la consola HyperPod APIs o.

Si la política está en CreateRollbackFailed estado CreateFailed o estado, debe eliminar la política fallida y crear una nueva.
Si la política está en UpdateFailed estado, vuelva a intentar la actualización con el mismo ARN de política.
Si la política está en UpdateRollbackFailed estado, debe eliminar la política fallida y, a continuación, crear una nueva.
Si la política está en DeleteRollbackFailed estado DeleteFailed o, vuelva a intentar eliminarla con el mismo ARN de política.
- Si se ha producido un error al intentar eliminar la política de priorización de procesamiento o de clúster mediante la HyperPod consola, intente eliminarla cluster-scheduler-config mediante la API. Para comprobar el estado del recurso, ve a la página de detalles de una asignación de cómputo.

Para ver más detalles sobre el error, usa la API de descripción.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejemplos de AWS CLI comandos de gobierno de HyperPod tareas

Documento de atribución para la gobernanza de SageMaker HyperPod tareas de Amazon