문제 해결 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

문제 해결

다음 섹션에서는 Studio의 HyperPod에 대한 문제 해결 솔루션을 나열합니다.

작업 탭

사용자 지정 리소스 정의(CRD)가 작업 탭에 있는 동안 클러스터에 구성되지 않은 경우

  • 도메인 실행 역할에 EKSAdminViewPolicyClusterAccessRole 정책을 부여합니다.

    실행 역할에 태그를 추가하는 방법에 대한 자세한 내용은 IAM 역할 태그 지정을 참조하세요.

    IAM 사용자 또는 그룹에 정책을 연결하는 방법을 알아보려면 IAM 자격 증명 권한 추가 및 제거를 참조하세요.

Slurm 지표에 대한 작업 그리드가 작업 탭에서 로드를 중지하지 않는 경우.

Studio for EKS 클러스터의 제한된 작업 보기:

  • 실행 역할에 EKS 클러스터의 네임스페이스를 나열할 권한이 없는 경우.

  • 사용자가 EKS 클러스터에 대한 액세스에 문제가 있는 경우.

    1. 다음 AWS CLI 명령을 실행하여 RBAC가 활성화되어 있는지 확인합니다.

      kubectl api-versions | grep rbac

      이렇게 하면 rbac.authorization.k8s.io/v1. 반환됩니다.

    2. 다음 명령을 실행하여 ClusterRole 및가 ClusterRoleBinding 존재하는지 확인합니다.

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. 사용자 그룹 멤버십을 확인합니다. 사용자가 자격 증명 공급자 또는 IAM의 pods-events-crd-cluster-level 그룹에 올바르게 할당되었는지 확인합니다.

  • 사용자가 리소스를 볼 수 없는 경우.

    • 그룹 멤버십을 확인하고 ClusterRoleBinding가 올바르게 적용되었는지 확인합니다.

  • 사용자가 모든 네임스페이스에서 리소스를 볼 수 있는 경우.

    • 네임스페이스 제한이 필요한 경우 ClusterRoleRoleBinding 대신 Role 및를 사용하는 것이 좋습니다ClusterRoleBinding.

  • 구성이 올바른 것으로 보이지만 권한이 적용되지 않는 경우.

    • 액세스를 방해NetworkPolicies하거나 PodSecurityPolicies 방해하는 것이 있는지 확인합니다.

지표 탭

Amazon CloudWatch 지표가 없는 경우 지표 탭에 표시됩니다.

  • HyperPod 클러스터 세부 정보의 Metrics 섹션에서는 CloudWatch를 사용하여 데이터를 가져옵니다. 이 섹션의 지표를 보려면를 활성화해야 합니다클러스터 관찰성. 관리자에게 문의하여 지표를 구성합니다.