기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
문제 해결
다음 페이지에는 HyperPod EKS 클러스터 문제 해결을 위한 알려진 솔루션이 포함되어 있습니다.
대시보드 탭
EKS 추가 기능을 설치하지 못함
EKS 추가 기능 설치에 성공하려면 Kubernets 버전이 >= 1.30이어야 합니다. 업데이트하려면 Kubernetes 버전 업데이트를 참조하세요.
EKS 추가 기능 설치가 성공하려면 모든 노드가 준비 상태이고 모든 포드가 실행 중 상태여야 합니다.
노드 상태를 확인하려면 list-cluster-nodes
AWS CLI 명령을 사용하거나 EKS 콘솔에서 EKS
포드의 상태를 확인하려면 Kubernetes CLIkubectl get pods -n cloudwatch-agent
이동하여 네임스페이스를 사용하여 포드의 상태를 확인합니다cloudwatch-agent
. 포드 문제를 해결하거나 관리자에게 문의하여 문제를 해결합니다. 모든 포드 상태가 실행 중이면 Amazon SageMaker AI 콘솔
자세한 문제 해결은 Amazon CloudWatch Observability EKS 추가 기능 문제 해결을 참조하세요.
작업 탭
클러스터에서 사용자 지정 리소스 정의(CRD)가 구성되지 않은 방식에 대한 오류 메시지가 표시되면 도메인 실행 역할에 EKSAdminViewPolicy
및 ClusterAccessRole
정책을 부여합니다.
-
실행 역할을 가져오는 방법에 대한 자세한 내용은 실행 역할을 가져옵니다.섹션을 참조하세요.
-
IAM 사용자 또는 그룹에 정책을 연결하는 방법을 알아보려면 IAM 자격 증명 권한 추가 및 제거를 참조하세요.
정책
다음은 HyperPod APIs 또는 콘솔을 사용하는 정책과 관련된 오류에 대한 해결 방법입니다.
-
정책이
CreateFailed
또는CreateRollbackFailed
상태인 경우 실패한 정책을 삭제하고 새 정책을 생성해야 합니다. -
정책이
UpdateFailed
상태인 경우 동일한 정책 ARN으로 업데이트를 다시 시도합니다. -
정책이
UpdateRollbackFailed
상태인 경우 실패한 정책을 삭제한 다음 새 정책을 생성해야 합니다. -
정책이
DeleteFailed
또는DeleteRollbackFailed
상태인 경우 동일한 정책 ARN으로 삭제를 다시 시도합니다.-
HyperPod 콘솔을 사용하여 컴퓨팅 우선 순위 지정 또는 클러스터 정책을 삭제하는 동안 오류가 발생한 경우 API를
cluster-scheduler-config
사용하여를 삭제해 보십시오. 리소스의 상태를 확인하려면 컴퓨팅 할당의 세부 정보 페이지로 이동합니다.
-
실패에 대한 자세한 내용을 보려면 설명 API를 사용합니다.