문제 해결 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문제 해결

다음 페이지에는 HyperPod EKS 클러스터 문제 해결을 위한 알려진 솔루션이 포함되어 있습니다.

대시보드 탭

EKS 추가 기능을 설치하지 못함

EKS 추가 기능 설치에 성공하려면 Kubernets 버전이 >= 1.30이어야 합니다. 업데이트하려면 Kubernetes 버전 업데이트를 참조하세요.

EKS 추가 기능 설치가 성공하려면 모든 노드가 준비 상태이고 모든 포드가 실행 중 상태여야 합니다.

노드 상태를 확인하려면 list-cluster-nodes AWS CLI 명령을 사용하거나 EKS 콘솔에서 EKS 클러스터로 이동하여 노드 상태를 확인합니다. 각 노드의 문제를 해결하거나 관리자에게 문의하세요. 노드 상태가 알 수 없음인 경우 노드를 삭제합니다. 모든 노드 상태가 준비됨이면 Amazon SageMaker AI 콘솔에서 HyperPod에 EKS 추가 기능 설치를 다시 시도합니다.

포드의 상태를 확인하려면 Kubernetes CLI 명령을 사용하거나 EKS 콘솔에서 EKS 클러스터로 kubectl get pods -n cloudwatch-agent 이동하여 네임스페이스를 사용하여 포드의 상태를 확인합니다cloudwatch-agent. 포드 문제를 해결하거나 관리자에게 문의하여 문제를 해결합니다. 모든 포드 상태가 실행 중이면 Amazon SageMaker AI 콘솔에서 HyperPod에 EKS 추가 기능 설치를 다시 시도합니다.

자세한 문제 해결은 Amazon CloudWatch Observability EKS 추가 기능 문제 해결을 참조하세요.

작업 탭

클러스터에서 사용자 지정 리소스 정의(CRD)가 구성되지 않은 방식에 대한 오류 메시지가 표시되면 도메인 실행 역할에 EKSAdminViewPolicyClusterAccessRole 정책을 부여합니다.

정책

다음은 HyperPod APIs 또는 콘솔을 사용하는 정책과 관련된 오류에 대한 해결 방법입니다.

  • 정책이 CreateFailed 또는 CreateRollbackFailed 상태인 경우 실패한 정책을 삭제하고 새 정책을 생성해야 합니다.

  • 정책이 UpdateFailed 상태인 경우 동일한 정책 ARN으로 업데이트를 다시 시도합니다.

  • 정책이 UpdateRollbackFailed 상태인 경우 실패한 정책을 삭제한 다음 새 정책을 생성해야 합니다.

  • 정책이 DeleteFailed 또는 DeleteRollbackFailed 상태인 경우 동일한 정책 ARN으로 삭제를 다시 시도합니다.

    • HyperPod 콘솔을 사용하여 컴퓨팅 우선 순위 지정 또는 클러스터 정책을 삭제하는 동안 오류가 발생한 경우 API를 cluster-scheduler-config 사용하여를 삭제해 보십시오. 리소스의 상태를 확인하려면 컴퓨팅 할당의 세부 정보 페이지로 이동합니다.

실패에 대한 자세한 내용을 보려면 설명 API를 사용합니다.