Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas
La siguiente página contiene soluciones conocidas para solucionar problemas de sus clústeres HyperPod EKS.
Pestaña Panel
No se puede instalar el complemento EKS
Para que la instalación del complemento EKS se realice correctamente, necesitará tener una versión de Kubernets >= 1.30. Para actualizar, consulta Actualizar la versión de Kubernetes.
Para que la instalación del complemento EKS se realice correctamente, todos los nodos deben estar en estado Listo y todos los pods deben estar en estado En ejecución.
Para comprobar el estado de los nodos, utilice el list-cluster-nodes
AWS CLI comando o vaya al clúster de EKS en la consola de EKS
Para comprobar el estado de los pods, usa el kubectl get pods -n cloudwatch-agent
comando CLI de Kubernetescloudwatch-agent
Resuelve el problema de los pods o ponte en contacto con tu administrador para resolverlo. Cuando todos los estados de los pods estén en ejecución, vuelve a intentar instalar el complemento EKS HyperPod desde la consola Amazon SageMaker AI
Para obtener más información sobre la solución de problemas, consulte Solución de problemas del complemento Amazon CloudWatch Observability EKS.
Pestaña de tareas
Si aparece un mensaje de error que indica que la definición de recursos personalizada (CRD) no está configurada en el clúster, asígnele la función de ejecución de su dominio EKSAdminViewPolicy
y asígnele ClusterAccessRole
políticas.
-
Para obtener información sobre cómo obtener el rol de ejecución, consulte Obtención del rol de ejecución.
-
Para obtener información sobre cómo asociar políticas a un usuario o grupo de IAM, consulte Añadir y eliminar permisos de identidad de IAM.
Políticas
A continuación, se enumeran las soluciones a los errores relacionados con las políticas que se utilizan con la consola HyperPod APIs o.
-
Si la política está en
CreateRollbackFailed
estadoCreateFailed
o estado, debe eliminar la política fallida y crear una nueva. -
Si la política está en
UpdateFailed
estado, vuelva a intentar la actualización con el mismo ARN de política. -
Si la política está en
UpdateRollbackFailed
estado, debe eliminar la política fallida y, a continuación, crear una nueva. -
Si la política está en
DeleteRollbackFailed
estadoDeleteFailed
o, vuelva a intentar eliminarla con el mismo ARN de política.-
Si se ha producido un error al intentar eliminar la política de priorización de procesamiento o de clúster mediante la HyperPod consola, intente eliminarla
cluster-scheduler-config
mediante la API. Para comprobar el estado del recurso, ve a la página de detalles de una asignación de cómputo.
-
Para ver más detalles sobre el error, usa la API de descripción.