As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.
Guia do Painel
Falha na instalação do complemento EKS
Para que a instalação do complemento EKS seja bem-sucedida, você precisará ter uma versão >= 1.30 do Kubernets. Para atualizar, consulte Atualizar a versão do Kubernetes.
Para que a instalação do complemento EKS seja bem-sucedida, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.
Para verificar o status dos seus nós, use o list-cluster-nodes
AWS CLI comando ou navegue até seu cluster EKS no console EKS
Para verificar o status dos seus pods, use o kubectl get pods -n cloudwatch-agent
comando da CLI do Kubernetescloudwatch-agent
Resolva o problema dos pods ou entre em contato com seu administrador para resolver os problemas. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS HyperPod no console Amazon SageMaker
Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.
Aba Tarefas
Se você ver a mensagem de erro sobre como a Definição de Recursos Personalizados (CRD) não está configurada no cluster, conceda EKSAdminViewPolicy
e aplique ClusterAccessRole
políticas para sua função de execução de domínio.
-
Para obter informações sobre como obter sua função de execução, consulteObtenha um perfil de execução.
-
Para saber como anexar políticas a um usuário ou grupo do IAM, consulte Adicionar e remover permissões de identidade do IAM.
Políticas
A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.
-
Se a política estiver em
CreateFailed
ou comCreateRollbackFailed
status, você precisará excluir a política com falha e criar uma nova. -
Se a política estiver no
UpdateFailed
status, tente atualizar novamente com o mesmo ARN da política. -
Se a política estiver em
UpdateRollbackFailed
status, você precisará excluir a política com falha e criar uma nova. -
Se a política estiver em
DeleteFailed
ou comDeleteRollbackFailed
status, tente excluir novamente com o mesmo ARN da política.-
Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la
cluster-scheduler-config
usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação computacional.
-
Para ver mais detalhes sobre a falha, use a API describe.