Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Solução de problemas

Modo de foco
Solução de problemas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

A página a seguir contém soluções conhecidas para solucionar problemas em seus clusters HyperPod EKS.

Guia do Painel

Falha na instalação do complemento EKS

Para que a instalação do complemento EKS seja bem-sucedida, você precisará ter uma versão >= 1.30 do Kubernets. Para atualizar, consulte Atualizar a versão do Kubernetes.

Para que a instalação do complemento EKS seja bem-sucedida, todos os nós precisam estar no status Pronto e todos os pods precisam estar no status Executando.

Para verificar o status dos seus nós, use o list-cluster-nodes AWS CLI comando ou navegue até seu cluster EKS no console EKS e visualize o status dos seus nós. Resolva o problema de cada nó ou entre em contato com seu administrador. Se o status do nó for Desconhecido, exclua o nó. Quando todos os status dos nós estiverem prontos, tente instalar novamente o complemento EKS a partir HyperPod do console Amazon SageMaker AI.

Para verificar o status dos seus pods, use o kubectl get pods -n cloudwatch-agent comando da CLI do Kubernetes ou navegue até seu cluster EKS no console EKS e veja o status dos seus pods com o namespace. cloudwatch-agent Resolva o problema dos pods ou entre em contato com seu administrador para resolver os problemas. Quando todos os status do pod estiverem em execução, tente instalar novamente o complemento EKS HyperPod no console Amazon SageMaker AI.

Para obter mais informações sobre a solução de problemas, consulte Solução de problemas do complemento Amazon CloudWatch Observability EKS.

Aba Tarefas

Se você ver a mensagem de erro sobre como a Definição de Recursos Personalizados (CRD) não está configurada no cluster, conceda EKSAdminViewPolicy e aplique ClusterAccessRole políticas para sua função de execução de domínio.

Políticas

A seguir, listamos as soluções para erros relacionados às políticas usando o console HyperPod APIs ou.

  • Se a política estiver em CreateFailed ou com CreateRollbackFailed status, você precisará excluir a política com falha e criar uma nova.

  • Se a política estiver no UpdateFailed status, tente atualizar novamente com o mesmo ARN da política.

  • Se a política estiver em UpdateRollbackFailed status, você precisará excluir a política com falha e criar uma nova.

  • Se a política estiver em DeleteFailed ou com DeleteRollbackFailed status, tente excluir novamente com o mesmo ARN da política.

    • Se você encontrou um erro ao tentar excluir a priorização de computação ou a política de cluster usando o HyperPod console, tente excluí-la cluster-scheduler-config usando a API. Para verificar o status do recurso, acesse a página de detalhes de uma alocação computacional.

Para ver mais detalhes sobre a falha, use a API describe.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.